Heritrix控制抓取速度

Heritrix通过三个参数来控制爬虫抓取的速度,位于每个Job的setting处,如图:

delay-factor是一个因子,表示两次抓取之间的delay应该是上一次抓取的延迟 * delay-factor:

举例来说,如果将delay-factor设置为4,前一次抓取花费了500ms的时间,那么要间隔 500ms * 4 = 2s的时间才进行下一次的抓取;

这个参数的好处在于它可以动态的控制抓取的速度,如果网站繁忙,那么自然每次抓取的时间相对较长,则我们两次抓取之间的间隔时间也变长。这样不会影响到被抓取网站的性能。

max-delay-ms 和 min-delay-ms则是抓取间隔的下限和上限。

min-delay-ms设置为2000ms,表示无论抓取的时间有多快(假设几ms就能够完成抓取),也无论delay-factor设置得多小,那么至少两次抓取之间的间隔要有2000ms;

max-delay-ms同理。

通过这三个参数,我觉着已经能够很好的控制爬虫的抓取速度了。

其实,一个爬虫速度的基本原则就是不影响被抓取网站的性能。否则就可能被目标网站封了,损人不利己。



  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值