Eclipse下配置Heritrix1.14.4

最近在看邱哲等人编著的《开发自己的搜索引擎Lucene+Heritrix》一书,里面有一章专门讲Hertrix的配置问题的,可是感觉讲得很麻烦,其实很简单。故将自己的配置方法整理下:

由于Hertrix的是开源的网络爬虫工具,具有很强的可扩展性,开发者可以根据自己的抓取逻辑对其源码进行修改。但是如果你仅是想利用Hertrix进行网页的抓取,那么配置就更简单了。只需下载到SourceForge网站上下载Heritrix的jar包就ok了,但是如果你还想对其源码进行修改来研究Heritrix的实现那可以下载源代码包。

1、无需修改源码的配置方法

    1)解压下载到的heritrix-1.14.4.zip文件,目录结构如下:

Heritrix目录结构

将lib目录的jar包和当前目录下的hertrix-1.14.4.jar文件导入到Eclipse工程的Build Path下,然后将conf/和webapps/两个目录拷贝到工程下面即可。

    2)修改conf/目录下的heritrix.properties文件,找到heritrix.cmdline.admin所在行,在后面添加“用户名:密码”

    3)运行org.archive.crawler.Heritrix类,如果出现:

        11:29:36.768 EVENT  Starting Jetty/4.2.23
        11:29:36.935 WARN!! Delete existing temp dir C:\Users\ADMINI~1.ZGC\AppData\Local\Temp\Jetty_127_0_0_1_8080__ for WebApplicationContext[/,jar:file:/D:/IR/Lucene/HeritrixDemo/webapps/admin.war!/]
        11:29:37.098 EVENT  Started WebApplicationContext[/,Heritrix Console]
        11:29:37.339 EVENT  Started SocketListener on 127.0.0.1:8080
        11:29:37.339 EVENT  Started
org.mortbay.jetty.Server@a01335
        Heritrix version: 1.14.4

说明配置成功!然后在浏览器中输入http://localhost:8080然后输入用户名和密码即可登入!

2、利用源码的配置方法

   利用源码在Eclipse下配置有些麻烦,但只是相对利用Jar包的配置方法而言的~_~

  1、将heritrix-1.14.4.jar文件利用WinRAR工具解压出来,目录结构如下:

  Heritrix的jar包的目录结构

  按照该目录结构配置eclipse工程即可。

  2、将heritrix-1.14.4-src.zip解压,解压后目录结构如下:Heritrix源代码包结构

 

然后将lib/目录下的所有.jar包全部导入到工程的BuildPath下 ,然后将src/目录下的所有目录拷贝到工程的src目录下以及conf/目录、webapps/目录拷贝到工程下即可。同样修改conf/目录下的heritrix.properties文件。

3、(关键)将刚才解压的jar包中的除了源代码外的所有文件都拷贝到src/目录下,配置完毕!

 

配置完成后,到eclipse工程下刷新下,即可运行!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值