heritrix多线程探索

上午说的那个方法经过试验是不起作用的。

按照上面说的配置后开始抓取网页,发现还是单线程在ACTIVE,查看了order.xml发现还是HostNamesQueueAssignmentPolicy。(后来我才知道原来是因为我是用base one existing job创建JOB的,这样对于setting中没有提供设定的属性会继承下来,由于QUEUEASSIGNMENTPOLICY这个属性在setting中没有提供配置,所以就继承了那个existing job上的配置)看来文明的是不行了,我觉定用粗鲁的方法,没错就是该HostNamesQueueAssignmentPolicy这个类的getClassKey这个方法,结果运行确实快极了,基本上达到了我这的带宽上限。

后来发现大概抓了300多网页后就开始不抓了,我一开始觉得是不是网站把我的IP给封了,重新开始一个新的JOB后发现还是下到300多时就停了,郁闷死了,网上有人说是some of your queues have, as their topmost
items, unfetchable URIs. Certain kinds of failed-fetches go into a
slow-timeout retry-cycle, and while a URI is in this cycle, nothing else
from the same queue will be tried. This is a reasonable approach when
all URIs in a queue are subject to the same network failures, but can
cause problems if the queues are mixed, and the deeper URIs would
succeed quickly, but are stuck behind topmost URIs.

过了大概不到半小时,我又惊喜的发现又继续开始抓网页了,速度也相当快,我想应该是重试一段时间还是不能下载就放弃此uri,所以过了一段时间又恢复正常。

经过了一个多小时的下载,下了2千多的网页,理论上应该是至少5千才对,经过观察发现 seed report 抛出了 Domain prerequisite failure 这个异常,有5百多个种子没有下载成功,我在想是不是种子有点多还是怎么回事....

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值