heritrix 提高抓取速度

最新推荐文章于 2019-04-20 10:30:00 发布

高成浩

最新推荐文章于 2019-04-20 10:30:00 发布

阅读量2.6k

点赞数

分类专栏： heritrix 文章标签： delay java 配置管理 integer 浏览器 domain

2 篇文章 0 订阅

订阅专栏

最近一直用heritrix爬取网站，晚上heritrix一直运行着，但奇怪的是heritrix 抓取速度非常慢，抓取一个网站，用了8个多小时，竟然没有运行完。于是根据LOG 分析了一下慢的原因

Java代码

-----===== SNOOZED QUEUES =====-----
SNOOZED#0:
Queue us,imageshack,img245,+2 (p1)
1 items
wakes in: 99m19s74ms
last enqueued: <a href="http://img245.xxx.us/img245/596/193183637x01ss500sclzzzbx0.jpg">http://img245.xxx.us/img245/596/193183637x01ss500sclzzzbx0.jpg
</a> last peeked: <a href="http://img245.xxxx.us/img245/596/193183637x01ss500sclzzzbx0.jpg">http://img245.xxxx.us/img245/596/193183637x01ss500sclzzzbx0.jpg
</a> total expended: 12 (total budget: -1)
active balance: 2988
last(avg) cost: 1(1)
totalScheduled fetchSuccesses fetchFailures fetchDisregards fetchResponses robotsDenials successBytes totalBytes fetchNonResponses
2 1 0 0 1 0 59 59 12
SimplePrecedenceProvider
1

SNOOZED QUene 里面有一些图片一直在那里，并且运行时间相当长，

用浏览器打开，那图片不存在，于是那图片一直在QUENE当中。

接着我分析了一下heritrix 中代码：

workQueneFrontier 有下面代码，由于图片不存在会进入needsRetrying代码块中。

Java代码

retryDelayFor方法是用来抓取失败，计算等待的时间，代码于如下

Java代码

由于heritrix 默认是等待900秒，也就是15分钟，如果抓取失败一个小时也只能运行4次， 8 个小时也就是32次，难怪一直在运行啊

Java代码

知道原因后就好办了，修改一下配置文件：

Xml代码

<bean id="frontier"
class="org.archive.crawler.frontier.BdbFrontier">
<!-- <property name="queuePrecedencePolicy">
<bean class="org.archive.crawler.frontier.precedence.BaseQueuePrecedencePolicy" />
</property> -->
<property name="retryDelaySeconds" value="90" />
</bean>

这是heritrix3的配置，把时间改成90秒，也就是只等待1分半钟，

如果是H1的配置，那可以用管理界面进行配置。

改了一下速度一下提高了很多，原来8小时才能爬完一个网站，现在2个小时就行了。

如果再用一下heritrix

增量抓取，那下次再抓取这个网站时，速度又会增加很多。这样问题解决了

关注