python抓取超时_Scrapy,无法抓取任何页面:“TCP连接超时:110:连接超时。”

编程新手

无法从属于同一网站的某个域中获取内容。在

例如,我可以抓取it.example.com、es.example.com、pt.example.com,但当我尝试用fr.example.com或{}进行相同的操作时,我得到:2017-12-17 14:20:27 [scrapy.extensions.telnet] DEBUG: Telnet console

listening on 127.0.0.1:6025

2017-12-17 14:21:27 [scrapy.extensions.logstats] INFO: Crawled 0 pages

(at

0 pages/min), scraped 0 items (at 0 items/min)

2017-12-17 14:22:27 [scrapy.extensions.logstats] INFO: Crawled 0 pages

(at

0 pages/min), scraped 0 items (at 0 items/min)

2017-12-17 14:22:38 [scrapy.downloadermiddlewares.retry] DEBUG:

Retrying

(failed 1 times): TCP

connection

timed out: 110: Connection timed out.

这是蜘蛛一些.py

^{pr2}$

我的尝试:从不同的IP运行spider(相同域的问题相同)

添加IP池(无效)

在Stackoverflow上的某处发现:在setting.py中,set

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5)

AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95

Safari/537.36'

ROBOTSTXT_OBEY = False

欢迎有任何想法!在

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值