# Python网络爬虫

最新推荐文章于 2024-04-01 13:30:49 发布

qq_40942317

最新推荐文章于 2024-04-01 13:30:49 发布

阅读量104

点赞数

本文链接：https://blog.csdn.net/qq_40942317/article/details/99080830

版权

网络爬虫的常用技术（二）

1. 请求headers处理
有时在请求一个网页内容时，发现无论通过GET或者是POST以及其他请求方式，都会出现403错误。这种现象多数为服务器拒绝了你的访问，那是因为这些网页为了防止恶意采集信息，所使用的反爬虫设置。此时可以模拟浏览器的头部信息来进行访问，这样就能解决以上反爬虫设置的问题。下面以requests模块为例介绍请求头部headers的处理，具体步骤如下：
（1）通过浏览器的网络监视器查看头部信息，首先通过Goole浏览器打开对应的网页地址，然后打开网络监视器，再刷新当前页面，网络监视器将显示如下的数据信息。打开Goole浏览器的headers信息请转这个链接
在这里插入图片描述
（2）找到我们所需的信息，即图中划线标注的信息就是我们所要的显示请求头部信息，将其复制下来。
（3）实现代码，首先创建一个需要爬取的URL地址，然后创建headers头部信息，在发送请求等待响应，最后打印网页的代码信息。代码如下：

import  requests
url  ='https://book.douban.com'                #创建需要爬取网页的地址
#创建头部信息
headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36"
}
response =requests.get(url,headers=headers)               #发送网络请求
print(response.content)                                   #以字节流的形式打印网页源码

注意：当出现“AttributeError: ‘set’ object has no attribute ‘items’”错误时，要仔细检查自己请求的网页内容的headers头部信息是否正确，是否加上了“User-Agent"。

qq_40942317

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
# Python网络爬虫

网络爬虫的常用技术（二）1. 请求headers处理有时在请求一个网页内容时，发现无论通过GET或者是POST以及其他请求方式，都会出现403错误。这种现象多数为服务器拒绝了你的访问，那是因为这些网页为了防止恶意采集信息，所使用的反爬虫设置。此时可以模拟浏览器的头部信息来进行访问，这样就能解决以上反爬虫设置的问题。下面以requests模块为例介绍请求头部headers的处理，具体步骤如下：...
复制链接

扫一扫