最近接了个小单,遇到一个很头疼的问题,返回的状态码无限521,在网上查阅了各种资料后,终于解决了问题返回200。
首先咱们先贴上网址:点击打开链接
首先我们按照传统的方法:
import requests
headers={
'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'
}
req=requests.get('https://www.seebug.org/vuldb/ssvid-92666',headers=headers).status_code
print(req)
/usr/bin/python3.5 /home/pipidi/Spider/lianjia/lianjia/spiders/__init__.py
521
Process finished with exit code 0
可以说是毫无疑问 返回的是521
下面贴出两种解决办法:
(1):直接复制request header
我们可以打开谷歌F12 找到其中的network 可以找到本网站地址的一个html 文件 直接复制所有他的头部
import requests
from copyheaders import headers_raw_to_dict
header=b'''Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8
Accept-Encoding:gzip, deflate, br
Accept-Language:zh,en-US;q=0.9,en;q=0.8
Cache-Control:max-age=0
Connection:keep-alive
Cookie:__jsluid=9536c75cdfa3e7e8c38d59bcbf4fc98b; csrftoken=YzAMB2QogF2YmzpruqWI5vdsfeH9PSx5; Hm_lvt_6b15558d6e6f640af728f65c4a5bf687=1519809319,1519880921; __jsl_clearance=1519885472.708|0|IQ9%2FbeQ6cfNLaEZUk2QzXhNEtL8%3D; Hm_lpvt_6b15558d6e6f640af728f65c4a5bf687=1519885477
Host:www.seebug.org
Upgrade-Insecure-Requests:1
User-Agent:Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'''
req=requests.get('https://www.seebug.org/vuldb/ssvid-92666',headers=headers_raw_to_dict(header)).status_code
print(req)
200
Process finished with exit code 0
就可以返回200,但是在实际爬取的过程中,会发现他还是会时不时返回521,并且cookie 是饼干屑具有时效性,不可能一直保存