python抓取超时_Scrapy，无法抓取任何页面：“TCP连接超时：110:连接超时。”

最新推荐文章于 2024-07-10 03:47:02 发布

weixin_39846898

最新推荐文章于 2024-07-10 03:47:02 发布

阅读量605

点赞数

文章标签： python抓取超时

本文链接：https://blog.csdn.net/weixin_39846898/article/details/111443942

版权

编程新手

无法从属于同一网站的某个域中获取内容。在

例如，我可以抓取it.example.com、es.example.com、pt.example.com，但当我尝试用fr.example.com或{}进行相同的操作时，我得到：2017-12-17 14:20:27 [scrapy.extensions.telnet] DEBUG: Telnet console

listening on 127.0.0.1:6025

2017-12-17 14:21:27 [scrapy.extensions.logstats] INFO: Crawled 0 pages

(at

0 pages/min), scraped 0 items (at 0 items/min)

2017-12-17 14:22:27 [scrapy.extensions.logstats] INFO: Crawled 0 pages

(at

0 pages/min), scraped 0 items (at 0 items/min)

2017-12-17 14:22:38 [scrapy.downloadermiddlewares.retry] DEBUG:

Retrying

(failed 1 times): TCP

connection

timed out: 110: Connection timed out.

这是蜘蛛一些.py

^{pr2}$

我的尝试：从不同的IP运行spider(相同域的问题相同)

添加IP池(无效)

在Stackoverflow上的某处发现：在setting.py中，set

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5)

AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95

Safari/537.36'

ROBOTSTXT_OBEY = False

欢迎有任何想法！在

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39846898

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

用Scrapy爬取网站时总获取不到源代码的解决办法

qq_38105596的博客

11-06

5459

运行scrapy crawl gupiao，报错如下： 2017-11-06 16:28:19 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: gupiaosp ider) 2017-11-06 16:28:19 [scrapy.utils.log] INFO: Overridden settings: {'BOT_NAME': ' ...

Scrapy

casn_d的博客

02-08

947

Scrapy框架(一) 简介 Scrapy是纯Python开发的一个高效,结构化的网页抓取框架； Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。 Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试 Scrapy使用了Twisted 异步网络库来处理网络通讯。使用原因： 1.为了更利于我们将精

参与评论您还未登录，请先登录后发表或查看评论

TCP connection timed out:110 (Scrapy)

李玺

12-09

7460

使用 scrapy 的时候，莫名出现了 ‘‘TCP 连接超时’’ 的错误，错误状态码110 TCP : 传输控制协议，是一种可靠的面向连接的协议从客户端来看，在我们的应用场景中，因为频繁的使用短连接，而且在同一台机上的客户端的数量比较多，造成了大量的 TIME－WAIT 状态的端口，当 TIME－WAIT 状态端口的数量铺满了整个 port_range 范围后，就会产生 99 号错误；从...

Python TCP连接超时

最新发布

weixin_30213477的博客

07-10

scrapy-python：tcp connection time out

weixin_33978016的博客

08-16

657

2019独角兽企业重金招聘Python工程师标准>>> ...

GoldenGate Pump Porcess: TCP/IP error 110 (Connection timed out)的问题解决

cnwoljq67940954的博客

05-12

774

场景是这样的：源端SOURCE处于内网，目标端TARGET处于DMZ区域，之前已申请开通了源端访问目标端的7809端口，配置PUMP后，PUMP进程一直无法正常工作： WARNING OGG-01223 ...

【Scrapy】确认xpath没问题但是爬取不到数据

qq_51527550的博客

11-22

1080

方法：（以Edge浏览器示范）在浏览器中点开设置，搜索“站点权限”，找到“JavaScript"，然后点进去，将”允许“的开关关掉。禁用JavaScript之后，拿之前能爬取成功的当当网检验，可以看到禁用之后，还是可以看到图书信息的。**原因：**如果目标网站使用JavaScript来渲染页面内容，Scrapy默认情况下可能无法获取到动态生成的内容。“print(”===============")"能执行，说明没有反爬，但是却没有获取到想要的div。如题，爬取爱彼迎首页时，返回的数据为空，即返回[]

爬虫教程（ 2 ） --- 爬虫框架 Scrapy、Scrapy 实战

墨鱼菜鸡

07-11

1811

From：https://piaosanlang.gitbooks.io/spiders/content/ scrapy-cookbook ：https://scrapy-cookbook.readthedocs.io/zh_CN/latest/index.html 1.爬虫框架 Scrapy 爬虫框架中比较好用的是 Scrapy 和 PyS...

Python网络爬虫---scrapy通用爬虫及反爬技巧

web开发与Python

09-04

427

一、通用爬虫通用爬虫一般有以下通用特性: 爬取大量(一般来说是无限)的网站而不是特定的一些网站。不会将整个网站都爬取完毕，因为这十分不实际(或者说是不可能)完成的。相反，其会限制爬取的时间及数量。在逻辑上十分简单(相较于具有很多提取规则的复杂的spider)，数据会在另外的阶段进行后处理(post-processed) 并行爬取大量网站以避免被某个网站的限制所限制爬取的速度(为表示尊重，每个...

彻底搞懂 Scrapy 的中间件

墨鱼菜鸡

07-11

889

彻底搞懂Scrapy的中间件(一)：https://www.cnblogs.com/xieqiankun/p/know_middleware_of_scrapy_1.html 彻底搞懂Scrapy的中间件(二)：https://www.cnblogs.com/xieqiankun/p/know_middleware_of_scrapy_2.html 彻底...

scrapy爬取网页数据是返回[ ],或者说爬取不到数据的排查方法

热门推荐

weixin_44841312的博客

07-12

1万+

可能的原因： 1，ip封锁爬取 2，xpath路径不对 3，xpath路径出现font,tbody标签 4，xpath路径不够明确 5，robot协议 6，请求头封锁废话不多说，直接上图 1，在dos窗口，输入 scrapy shell https://news.sina.com.cn/gov/xlxw/2019-07-12/doc-ihytcerm3070493.shtml 回车 ...

upstream timed out (110: Connection timed out) while reading response header from upstream，没想到是JDK的坑

qq_35058851的博客

10-15

1775

今天公司的前端代理从node换成了nginx，并且迁移到新的服务器上部署。一切都顺利的进行，只是访问项目的时候，接口奇慢，并且最后报了504的错。顺藤摸瓜，第一步来到nginx排斥错误，tail了error的日志信息，看到了报错如下一开始照着这个报错信息，一顿百度，加了各种nginx的超时配置，没卵用。。。在这里也劝大家，一般而言nginx都有默认的超时配置，只要接口的性能正常，都可以正常返回！接下来，来到服务端排查。。。。。很明显的发现，请求压根没进到服务（我们后端采用spr.

Python scrapy 常见问题及解决【遇到的坑】

weixin_33921089的博客

08-12

498

1.爬虫出现Forbidden by robots.txt 解决方法：setting.pyROBOTSTXT_OBEY = True 改成False 原因：scrapy抓包时的输出就能发现，在请求我们设定的url之前，它会先向服务器根目录请求一个txt文件这个文件中规定了本站点允许的爬虫机器爬取的范围（比如你不想让百度爬取你的页面，就可以通过robot来限制），因为默认scrapy遵守...

web安全测试用例(网络资源笔记)

天在等我，菜鸟想飞

12-30

6086

信息泄漏 robots.txt泄漏敏感信息 **漏洞描述：**搜索引擎可以通过robots文件可以获知哪些页面可以爬取，哪些页面不可以爬取。Robots协议是网站国际互联网界通行的道德规范，其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯，如果robots.txt文件编辑的太过详细，反而会泄露网站的敏感目录或者文件，比如网站后台路径，从而得知其使用的系统类型，从而有针对性地进行利用。测试方法：检测形式多样，工具爬虫扫描得到敏感文件的路径，从而找到robots文件；手工挖掘，直接在域名后输

压力测试TCP参数优化TIME_WAIT

a19860903的专栏

09-04

1192

一、环境 RHEL 6.5, Nginx 1.8.1 RHEL 6.5, Websphere 7.0 二、问题 1.nginx报错 connect() failed (110: Connection timed out) while connecting to upstream 2.压力大时，nginx服务器和was服务器有大量TIME_WA

Python 爬虫 TCP connection timed out: 10060

冰丶heart

04-02

1944

Python 爬虫 TCP connection timed out: 10060: 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败。. 请求超时 1.检查请求参数和请求头是否正确 2.当爬取国外网站的时候是否设置代理 3.代理是否有效 ...

Scrapy抓取网页相关问题解决以及注意事项总结

Rocky

11-04

2492

1、urllib2是python自带的模块，在python3.x中被改为urllib.request，如"font-size:12px;">url = "http://music.baidu.com/album/all?order=time&style=pop" html = urllib.request.urlopen(url).read() AttributeE

Scrapy入门：Python抓取框架实现页面内容提取

Python抓取框架Scrapy爬虫入门：页面提取 Scrapy作为一款强大的Python爬虫框架，其吸引力在于其灵活性和可扩展性。本文旨在初学者引导如何使用Scrapy进行页面提取，特别是针对动态加载内容的处理。Scrapy的核心理念...