Heritrix 1.14.3 运行环境配置

heritrix好像已经有3.0的版本了,但是sourceforge上还是给1.14.3的下载链接,3.0版本的弄不出来,目录结构改动太大了,连heritrix.properties都找不到了,还是用1.14.3来做爬虫吧。

1、下载heritrix-1.14.3-src.zip和heritrix-1.14.3.zip两个压缩包

2、在Eclipse下新建Java项目,取名Heritrix-1.14.3

3、复制heritrix-1.14.3-src包下面src/java文件夹下org、com、st三个文件夹到项目根目录

4、复制heritrix-1.14.3-src包下src下resources文件夹到项目根目录

5、复制heritrix-1.14.3-src包下conf到项目根目录

6、复制heritrix-1.14.3-src包下lib文件夹到项目根目录

7、复制heritrix-1.14.3包下webapps文件夹到项目根目录

8、修改项目conf下heritrix.properties文件 
       @VERSION@ 改为 1.14.3 
      heritrix.cmdline.admin = 改为 heritrix.cmdline.admin = username:password(用户名:密码) 
      heritrix.cmdline.port = 改为 heritrix.cmdline.port = 8080 

9、将lib目录下的所有.jar文件添加到classpath

10、/src/org.archive.crawler包下Heritrix.java会报错,原因是引用了sun.net.www.protocol.file.FileURLConnection这个受保护包下的类,设置eclipse对引用限制包只警告。

在preference->java->complier->errors/warning->deprecated and restricted API 
把 Forbidden reference 的Error改成warning

11、在项目/src/org.archive.crawler包下Heritrix.java上点击右键选运行方式->运行配置->classpath->点击右边的ADVANCED->ADD FOLDER->选择根目录下的conf->RUN 
控制台出现一下信息说明已成功. 
12:18:12.703 EVENT Starting Jetty/4.2.23 
12:18:12.937 EVENT Started WebApplicationContext[/,Heritrix Console] 
12:18:13.062 EVENT Started SocketListener on 127.0.0.1:8090 
12:18:13.062 EVENT Started org.mortbay.jetty.Server@179c285 
Heritrix version: 1.14.3


这时你可以打开浏览器,输入http://localhost:8090或http://localhost:8080 
输入刚才设的用户名和密码就可以登录Heritrix

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值