二十一：scrapy中设置下载延时与自动限速

最新推荐文章于 2024-07-22 14:15:06 发布

Norni

最新推荐文章于 2024-07-22 14:15:06 发布

阅读量2.3k

点赞数

文章标签： java python 数据库 nginx linux

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Norni/article/details/115714625

版权

1、DOWNLOAD_DELAY

　　在settings中设置　　DOWNLOAD_DELAY=2　　#延时2秒，不能动态改变，导致访问延时都差不多，也容易被发现

2、RANDOMIZE_DOWNLOAD_DELAY

　　在settings中设置　　RANDOMIZE_DOWNLOAD_DELAY=True　　# 启用后，当从相同的网站获取数据时，Scrapy将会等待一个随机的值，延迟时间为0.5到1.5之间的一个随机值乘以DOWNLOAD_DELAY

3、通过自动限速扩展

　　`

　　from scrapy.contrib.throttle import AutoThrottle

　　`

　　自动限速扩展能够根据Scrapy服务器及爬取的网站的负载自动限制爬取速度。

　　原理：在scrapy中，下载延迟是通过计算建立TCP连接到接收到HTTP包头(header)之间的时间来测量的。

　　使用的限速算法根据规则调整下载延迟及并发数：

　　(1)spider永远以1并发请求数及AUTOTHROTTLE_START_DELAY中指定的下载延迟启动

　　(2)当接收到回复时，下载延迟会调整到该回复的延迟与之间下载延迟之间的平均值

　　通过配置settings中的字段来开启自动限速扩展：

　　(1)AUTOTHROTTLE_ENABLED：默认为False，设置为True可以启用该扩展

最低0.47元/天解锁文章

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
二十一：scrapy中设置下载延时与自动限速

1、DOWNLOAD_DELAY　　在settings中设置　　DOWNLOAD_DELAY=2　　#延时2秒，不能动态改变，导致访问延时都差不多，也容易被发现2、RANDOMIZE_DOWNLOAD_DELAY　　在settings中设置　　RANDOMIZE_DOWNLOAD_DELAY=True　　# 启用后，当从相同的网站获取数据时，Scrapy将会等待一个随机的值，延迟时间为0....
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。