heritrix1.14.4 源代码在eclipse下最简单的配置方法-------不会报错!

网络上关于hertrix的配置的文章很多,其实源代码文件夹很多东西可以不需要,下面给一个简单的配置。

 

 

1.下载heritrix-1.14.4-src.zip 并解压

 

2.新建一个java项目,将解压后的heritrix-1.14.4-src/heritrix-1.14.4/src/java 目录下的

  com,org,st 三个文件夹拷贝到自己项目的src中

 

3.将heritrix-1.14.4/src/resources/org/archive/util 目录下的tlds-alpha-by-domain.txt 拷贝到自己项目的src/org/archive/util 下 (注:不然会报空指针异常,感谢      http://blog.csdn.net/strawbingo/archive/2010/07/11/5726341.aspx  提供解决)

 

4. 拷贝heritrix-1.14.4-src/heritrix-1.14.4/src 下的 webapps与conf 文件夹到你项目的根目录(即与自己项目的src目录平行)

(注: 其实 conf目录也可以不用这样放置,将conf文件夹下所有东西复制到自己项目的src目录下依然可以运行 )

 

5. 将源代码中的lib目录中的jar包全部加入到你的classpath中

 

6. 打开conf下面的 heritrix.properties(如果你在第5步中采用复制conf下文件到项目src下,你就在src下找这个文件), 定位到12  行,将heritrix.version = @version@ 修改为 heritrix.version = 1.14.4,定位到第19行,将 heritrix.cmdline.admin =     的“=”后面 加入用户名密码,修改后如:heritrix.cmdline.admin = admin:123 (前面用户名,后面密码,中间用分号隔开) 其中的heritrix.cmdline.port = 8080 为端口,你可以自己修改

 

--------------------至此你便可以运行org.archive.crawler.Heritrix.java启动程序了。

   

              并可以在浏览器下输入 http://localhost:8080/    输入用户名与密码(admin:123) 登陆

 

--------------------------

 

    时间关系,下次再记录怎么配置一次抓取任务,并谈论下怎么修改源代码定制自己的爬虫。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值