前置知识
a.http2协议是什么,与http1.1有什么不同
HTTP/2 是 HTTP 协议自 1999 年 HTTP 1.1 发布后的首个更新,主要基于 SPDY 协议。由互联网工程任务组(IETF)的 Hypertext Transfer Protocol Bis(httpbis)工作小组进行开发。该组织于2014年12月将HTTP/2标准提议递交至IESG进行讨论,于2015年2月17日被批准。HTTP/2标准于2015年5月以RFC 7540正式发表。
目前主流浏览器已经完成了对2.0协议的支持,但很多爬虫库对 HTTP/2.0 支持得不好,以requests、Scrapy等为例,并不能很好地支持2.0协议,因此,将站点升级到2.0成为了一些站长反爬虫的手段之一
b.为什么http1.1协议适用的爬虫不适用于http2
最根本的原因是协议不同,从表现上来看,其中之一的突出表现就是header参数的改变。
http1.1协议中规定headers中不能以:冒号开头,而2.0却是需要的,因此,在解析时就会出现问题。
c.目前可用的连接库,及选择
目前支持http2的库有hyper和httpx,但由于hyper库在使用中不甚理想,主要是在超时处理方面不能自定read超时时间,所以这里选用ht