scrapy重试机制_Scrapy项目之User timeout caused connection failure（异常记录）

最新推荐文章于 2023-08-15 15:47:25 发布

weixin_39911567

最新推荐文章于 2023-08-15 15:47:25 发布

阅读量658

点赞数

文章标签： scrapy重试机制

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39911567/article/details/112817028

版权

Windows 10家庭中文版，Python 3.6.4，Scrapy 1.5.0，html

提示：此文存在问题，真正测试，请勿阅读，shell

07-14 14:26更新：cookie

通过两个多小时的测试，发现此问题的缘由是昨天编写爬虫程序后，给爬虫程序添加了下面的属性：网络

download_timeout = 20dom

此属性的解释：scrapy

The amount of time (in secs) that the downloader will wait before timing out.函数

在获取某网站的子域名的robots.txt文件时，须要的时间远远超过20秒，所以，即使有三次重试的机会，也会最终失败。测试

此值默认为180，由于某网站是国内网站，所以，孤觉得它的文件所有都会下载的很快，不须要180这么大，因而更改成20，谁知道，其下子域名的robots.txt却须要这么久：网站

测试期间更改成30时，情况好了，目前已取消设置此值，已能抓取到须要的数据。spa

但是，为何robots.txt会下载这么慢呢？

删除Request中定义的errback进行测试，也能够获取到须要的数据。

那么，在Request中定义errback有什么用呢？

如今，再次在项目内、项目外执行下面的命令都不会发生DNSLookupError了(测试过)(但是，上午怎么就发生了呢ÿ

最低0.47元/天解锁文章

weixin_39911567

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy重试机制_Scrapy项目之User timeout caused connection failure（异常记录）

Windows 10家庭中文版，Python 3.6.4，Scrapy 1.5.0，html提示：此文存在问题，真正测试，请勿阅读，shell07-14 14:26更新：cookie通过两个多小时的测试，发现此问题的缘由是昨天编写爬虫程序后，给爬虫程序添加了下面的属性：网络download_timeout = 20dom此属性的解释：scrapyThe amount of time (in s...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。