Scrapy项目之User timeout caused connection failure（异常记录）

最新推荐文章于 2023-08-15 15:47:25 发布

aimianwo1708

最新推荐文章于 2023-08-15 15:47:25 发布

阅读量5.2k

点赞数

CC 4.0 BY-SA版权

文章标签： python 爬虫 shell

原文链接：http://www.cnblogs.com/luo630/p/9308884.html

本文记录了一位开发者在使用Scrapy爬虫时遇到的User timeout和DNSLookupError问题。通过调整download_timeout属性，从180秒降低到20秒导致问题出现。解决方案是在Request中定义errback回调函数，最终成功抓取数据。问题虽然解决，但作者对于errback如何处理DNSLookupError的机制仍有疑问。

Windows 10家庭中文版，Python 3.6.4，Scrapy 1.5.0，

提示：此文存在问题，真正测试，请勿阅读，

07-14 14:26更新：

经过两个多小时的测试，发现此问题的原因是昨天编写爬虫程序后，给爬虫程序添加了下面的属性：

download_timeout = 20

此属性的解释：

The amount of time (in secs) that the downloader will wait before timing out.

在获取某网站的子域名的robots.txt文件时，需要的时间远远超过20秒，因此，即便有三次重试的机会，也会最终失败。

此值默认为180，因为某网站是国内网站，因此，孤以为它的文件全部都会下载的很快，不需要180这么大，于是更改为20，谁知道，其下子域名的robots.txt却需要这么久：

测试期间更改为30时，状况好了，目前已取消设置此值，已能抓取到需要的数据。

可是，为什么robots.txt会下载这么慢呢？

删除Request中定义的errback进行测试，也可以获取到需要的数据。<

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。