Eclipse中配置使用Heritrix-1.14.4

 

Eclipse中配置使用Heritrix-1.14.4

1. 下载并解压heritrix-1.14.4-src.zipheritrix-1.14.4.zip

2. Eclipse中新建java project,项目名定为heritrix_getstart

3. 将解压后的heritrix-1.14.4-src.zipsrc/java/下的com,org,st文件夹复制到工程的src目录下

4. src/conf下的modules,profiles,selftest文件夹和heritrix.propertries,jndi.properities文件复制到工程的src目录下

5. 解压heritrix-1.14.4-zipwebapps文件夹复制到工程根目录下

6. 如图:



 

7. 打开工程中的heritrix.propertries文件修改以下配置项

a) heritrix.version = 1.14.4,配置heritrix版本号

b) heritrix.jobsdir = jobs,配置爬取的内容的放置文件夹

c) heritrix.cmdline.admin = username:password,配置webUI登录的用户名和密码

d) heritrix.cmdline.port = 8888,配置webUI的登录端口

8. lib文件夹下的后有jar包加入到工程的classpath

9. 在工程中找到org.archive.crawler下的Heritrix.java运行

10. 



 

11.打开浏览器,输入地址:http://localhost:8888输入用户名和密码就可以登录到后台


 

 

 

 

可能遇到的问题

 thread-10 org.archive.util.ArchiveUtils.<clinit>() TLD list unavailable

解决方法:到heritrix.1.14.4.jar包中将文件org/archive/util/tlds-alpha-by-domain.txt复制到工程中的org/archive/util目录下即可

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值