爬行者LARM---Lucene

来自:http://hedong.3322.org/archives/000218.html   车东

 爬行者LARM是一个抓取网页的机器人,用纯Java写就。

  通过作者的叙述,写一个爬行者,远非想象中的那么简单。HTML规范太简单了,所以会出很多标新立异的HTML文件。网络的随机性太强了,说不定就会遇到什么问题。这种种意外,都会考验一个爬行者。

  LARM作为Lucene的子项目,还在开发之中,连个稳定版都没有,只能通过CVS取得。而且文档的说明也不统一,具有开发中的项目的共性。不过,它的随机文档还是把LARM的设想和特点说了,它还有一个wiki页面,不知为什么在sourceforge上还挂了一个名(这儿还有几篇RTF文档)。

  LARM源码中,有一个GUI界面,把我乐坏了,一运行,怎么点击“Start”它也不活动,很郁闷,一看源码,“// to do: code goes here.”,根本没有对这个点击事件的处理代码。FT!

  如果不考虑它与Lucene的关系,单当作一个爬行者来看,也有一定的使用价值。我下了这个项目,编译运行以后,对http://hedong.3322.org进行抓取,由于没限制域名,一下子到了5500多个域名,在下了300M左右,就把它中断了。

mkdir jakarta
cd jakarta

cvs -d :pserver:anoncvs@cvs.apache.org:/home/cvspublic login
password: anoncvs
cvs -d :pserver:anoncvs@cvs.apache.org:/home/cvspublic checkout jakarta-lucene-sandbox

cd jakarta-lucene-sandbox/contributions/webcrawler-LARM
ant dist

把build/webcrawler_LARM-0.5.jar及libs/目录下的所有jar都加到classpath里去。

java -server de.lanlab.larm.fetcher.FetcherMain -start http://hedong.3322.org

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值