scrapy 爬取今日头条报错 'SSL routines', 'SSL23_GET_SERVER_HELLO', 'unknown protocol'

最新推荐文章于 2021-12-31 12:05:32 发布

he-yin

最新推荐文章于 2021-12-31 12:05:32 发布

阅读量3k

点赞数

分类专栏： python 文章标签： scrapy

本文链接：https://blog.csdn.net/HYESC/article/details/86680209

版权

python 专栏收录该内容

23 篇文章 0 订阅

订阅专栏

初次爬取时，代码没有问题，可以正常爬取，过了两日后，再次运行代码时，就抛出异常

ERROR: <twisted.python.failure.Failure twisted.web._newclient.ResponseNeverReceived: [<twisted.python.failure.Failure OpenSSL.SSL.Error: [('SSL routines', 'SSL23_GET_SERVER_HELLO', 'unknown protocol')]>]>

经多方搜索，找到解决方法：

pip uninstall scrapy
pip uninstall pyopenssl
pip install pyopenssl
pip install scrapy

即版本有点低了，不支持以上抛异常的连接方式
参考文章：
https://blog.csdn.net/lzc4869/article/details/79528505?utm_source=blogxgwz4
https://blog.csdn.net/qq_24861509/article/details/48019613

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

he-yin

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

NGINX HTTPS SSL: error:140770FC:SSL routines:SSL23_GET_SERVER_HELLO:unknown protocol

Default

07-05

1万+

目录 1.nginx错误日志 2.错误的nginx.conf配置 3.请求 4.正确的nginx.conf配置 5.请求 6.分析 1.nginx错误日志 2019/07/05 13:16:12 [error] 93333#0: *2597 SSL_do_handshake() failed (SSL: error:140770FC:SSL routines:SSL23_GET_S...

Python3 爬取CSDN文章时报错 ssl.SSLCertVerificationError: [SSL: CERTIFICATE_VERIFY_FAILED]

LLL源成长日记

03-02

7921

想用python3内置的urllib库爬一下新闻、文章，结果报错代码如下: import urllib.request import re url="https://www.csdn.net/" header=("User-Agent", "Mozilla/5.0") opr=urllib.request.build_opener() opr.addheaders=[header] data=..

参与评论您还未登录，请先登录后发表或查看评论

Glance routines:SSL23_GET_SERVER_HELLO:unknown protocol故障排查

weixin_33974433的博客

12-06

1353

今天遇到一个很诡异的错误，这着实是一个大教训，与各位一起分享下。今天某台服务器上的glance服务不能使用了。使用glanceclient访问glance的返回结果是： 401 Unauthorized 由于在登陆dashboard需要获得所有的client的返回信息，因此在登陆面板的时候会发生报错，并且在点镜像的时候由于401直接就弹出来了。 ——————...

nodejs Websoket wss error:140770FC:SSL routines:SSL23_GET_SERVER_HELLO:unknown protocol

了解—学习—进步—满足

04-12

1935

错误提示如下： Error: write EPROTO 140052867975040:error:140770FC:SSL routines:SSL23_GET_SERVER_HELLO:unknown protocol:../deps/openssl/openssl/ssl/s23_clnt.c:827: at _errnoException (util.js:1022:11) ...

cURL error 35:error:140770FC:SSL routines:SSL_23_GET_SERVER_HELLO:unknown protocol

最新发布

09-02

Python基于Scrapy爬取www.rkpass.cn题目_rkpassScrapy

全民付手机接口开发生产环境error:140770FC:SSL routines:SSL23_GET_SERVER_HELLO:unknown protocol

咖啡蓝的程序人生

06-18

3万+

近日，公司业务需要，做手机web支付，用的是全民付的手机支付，对方给的php开发文档很简陋，逻辑还是很简单的，经过写代码，测试环境下一切正常，切换到线上环境时，返回空白，打印curl的错误信息为 error:140770FC:SSL routines:SSL23_GET_SERVER_HELLO:unknown protocol 低版本的curl也正常。百度，google都没找到解决

SSL_do_handshake() failed (SSL: error:140770FC:SSL routines:SSL23_GET_SERVER_HELLO:unknown protocol

weixin_40288231的博客

07-08

1万+

配置nginx反向代理Tomcat证书发现502 nginx报错： SSL_do_handshake() failed (SSL: error:140770FC:SSL routines:SSL23_GET_SERVER_HELLO:unknown protocol) while SSL handshaking to upstream 解决：将图片中http_pass中的https改成http即可问题解决 ...

vConcert 6.2转换时报错：SSL23_GET_SERVER_HELLO:unsupported protocol”

Robert's Log

08-09

2138

转载地址：https://blog.51cto.com/lander/2104651 故障现象：在使用Converter进行P2V或V2V转换时，碰到了如下报错，导致无法进行下去“A general system error occurred: SSL Exception: error:14077102:SSL routines:SSL23_GET_SERVER_HELLO:unsupport...

python爬取今日头条的文章_Python3爬取今日头条有关《人民的名义》文章

weixin_39755853的博客

12-04

294

Python3爬取今日头条有关《人民的名义》文章最近一直在看Python的基础语法知识，五一假期手痒痒想练练，正好《人民的名义》刚结束，于是决定扒一下头条上面的人名的名义文章，试试技术同时可以集中看一下大家的脑洞也是极好的。首先，我们先打开头条的网页版，在右上角搜索框输入关键词，通过chrome调试工具，我们定位到头条的search栏调用的的API为：http://www.toutiao.com/...

python爬取今日头条文章json中data出现none_ajax爬取今日头条街拍图片——data出现none的解决...

weixin_39545895的博客

02-21

708

之前爬取总是出现如图的结果：手动打开url显示的是想要的结果，但是爬取的时候data为空尝试了多种方法，偶然得到了想要的结果：这是多次实验中成功与不成功结果中构造的url发现1)得到想要结果，所构造的url中keyword=******与下一参数间没有&链接2)同样的keyword=%E8%A1%97%E6%8B%8D,参用不同的方式：‘https://www.toutiao.com/ap...

解决SSL routines:SSL23_GET_CLIENT_HELLO:http request

gusijin的博客

12-31

4981

问题 php start.php start 客服系统配置https，websocket启动报如下错误： SSL handshake error: stream_socket_enable_crypto(): SSL operation failed with code 1. OpenSSL Error messages: error:1407609C:SSL routines:SSL23_GET_CLIENT_HELLO:http request 解决办法其实是nginx 配置问题 proxy_pa

nodemailer Error SSL23_GET_SERVER_HELLO 解决办法

ycclydy的博客

06-05

943

问题原因：Nodemailer会使用STARTTLS将纯文本连接升级为加密连接，如果连接不能被加密，则消息不会被发送。STARTTLS: 是对纯文本通信协议的扩展。它提供一种方式将纯文本连接升级为加密连接（TLS或SSL），而不是另外使用一个端口作加密通信。解决办法:如果端口不是465，在配置中添加：secure: falseignoreTLS:true例：var transporter = n...

Python2.7 Scrapy爬取https URL报“SSL: CERTIFICATE_VERIFY_FAILED”

江南的专栏

06-20

3075

用Scrapy在爬取以https开头的地址时报“SSL: CERTIFICATE_VERIFY_FAILED”的错误；错误原因：python2.7的urllib.urlopen https的URL时会验证一次SSL证书，当目标网站使用自签名时就会报错该错误。解决方法：1、引入ssl，在使用urlopen时传入认证内容import ssl# This restores the same behavi...

python 指定证书验证_python – 在Scrapy中禁用SSL证书验证

weixin_39531374的博客

12-14

1496

我目前正在努力解决与Scrapy有关的问题.每当我使用Scrapy刮取证书的CN值与服务器域名匹配的HTTPS站点时,Scrapy效果很好！另一方面,每当我尝试抓取证书的CN值与服务器的域名不匹配的网站时,我会得到以下内容：Traceback (most recent call last):File "/usr/local/lib/python2.7/dist-packages/twisted/p...

scrapy爬取今日头条

05-18

使用 Scrapy 爬取今日头条可以分为以下步骤： 1. 创建 Scrapy 项目 ``` scrapy startproject toutiao ``` 2. 创建一个 Spider 在 Scrapy 项目中，每个爬虫都是由一个 Spider 类来定义的。在 `spiders` 文件夹下创建一个 `toutiao_spider.py` 文件，并编写以下代码： ```python import scrapy class ToutiaoSpider(scrapy.Spider): name = "toutiao" start_urls = [ 'https://www.toutiao.com/ch/news_hot/', ] def parse(self, response): for article in response.css('div.card'): yield { 'title': article.css('div.title-box a::text').get(), 'url': article.css('div.title-box a::attr(href)').get(), 'source': article.css('a.lbtn.source::text').get(), 'time': article.css('span.time::text').get(), } next_page = response.css('a.next::attr(href)').get() if next_page is not None: yield response.follow(next_page, self.parse) ``` 在 Spider 中，我们首先指定了 Spider 的名称和起始 URL，然后定义了一个 `parse` 方法，用于解析响应并提取数据。在这个例子中，我们使用 CSS 选择器来提取文章的标题、URL、来源和发布时间，并将其作为字典类型的 item 返回。最后，我们通过在响应中查找“下一页”的链接来实现翻页，并使用 `response.follow` 方法来跟踪这些链接，最终递归调用 `parse` 方法。 3. 运行 Spider 完成 Spider 的编写后，我们可以在命令行中运行以下命令来启动爬虫： ``` scrapy crawl toutiao -o articles.csv ``` 此命令将运行名为 `toutiao` 的 Spider，并将结果输出到 `articles.csv` 文件中。您可以将此文件用于进一步的数据分析和处理。