针对http2协议网站的python爬虫设计,及超时处理

前置知识

a.http2协议是什么,与http1.1有什么不同

HTTP/2 是 HTTP 协议自 1999 年 HTTP 1.1 发布后的首个更新,主要基于 SPDY 协议。由互联网工程任务组(IETF)的 Hypertext Transfer Protocol Bis(httpbis)工作小组进行开发。该组织于2014年12月将HTTP/2标准提议递交至IESG进行讨论,于2015年2月17日被批准。HTTP/2标准于2015年5月以RFC 7540正式发表。

目前主流浏览器已经完成了对2.0协议的支持,但很多爬虫库对 HTTP/2.0 支持得不好,以requests、Scrapy等为例,并不能很好地支持2.0协议,因此,将站点升级到2.0成为了一些站长反爬虫的手段之一

b.为什么http1.1协议适用的爬虫不适用于http2

最根本的原因是协议不同,从表现上来看,其中之一的突出表现就是header参数的改变。
http1.1协议中规定headers中不能以:冒号开头,而2.0却是需要的,因此,在解析时就会出现问题。
在这里插入图片描述

c.目前可用的连接库,及选择

目前支持http2的库有hyper和httpx,但由于hyper库在使用中不甚理想,主要是在超时处理方面不能自定read超时时间,所以这里选用ht

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值