heritrix使用经验

1:create  based on existing job 会把order.xml这个文件copy进去,对于在setting中没有可更改的选项会和existing Job 一样。

2:对于上次说的那个 seed report 中抛出的那个domain...异常(种子下载异常)过一段时间种子也许可以继续下载下来。

 

3:如果把800多个种子一股脑的放到种子列表中的话会出现一系列我不明白的异常,而且有很多网页没有爬下来,后来我先吧50个种子放到seed列表并把线程限制为10,结果却下了比800多个种子爬取的更多的网页。

虽然可能网页下载不一定完全,但是没必要追求完美,合适就可以了。

 

今天应该可以完成下载,明天开始对网页处理。有时间要看看它的代码才行。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值