请求headers处理

最新推荐文章于 2023-09-07 10:15:00 发布

weixin_30649641

最新推荐文章于 2023-09-07 10:15:00 发布

阅读量136

点赞数

原文链接：http://www.cnblogs.com/start20180703/p/10441773.html

版权

　　有时在请求一个网页内容时，发现无论通过GET或者是POST以及其他请求方式，都会出现403错误。这种现象多数是由于服务器拒绝了您的访问，那是因为这些网页为了防止恶意采集信息，所使用的反爬虫设置。此时可通过模拟浏览器头部信息来进行访问，这样就解决了以上反爬虫设置的问题。下面以requests模块为例介绍请求头部headers的处理，如下：

　　（1）通过浏览器的网络监视器查看头部信息，通过谷歌浏览器打开对应的网页地址，然后打开网络监视器，再刷新当前页面，网络监视器将显示如图所示的数据变化

（2）选中第一条信息，右侧的消息头面板中将显示请求头部信息，然后复制该信息

（3）实现代码，首先创建一个需要爬取的url地址，然后创建header头部信息，再发送请求等待响应，最后打印网页的代码信息，如下：

import requests

url='https://www.baidu.com/'
#创建头部信息
headers={'User-Agent':'OW64;rv:59.0)Gecko/20100101 Chrome/71.0'}

response=requests.get(url,headers=headers)
print(response.content)