【python】【爬虫】伪装浏览器，解决错误码403

最新推荐文章于 2024-06-14 16:42:02 发布

Banana忍冬

最新推荐文章于 2024-06-14 16:42:02 发布

阅读量1k

点赞数

分类专栏： python # 爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/BananaChoas/article/details/117837274

版权

在爬取某些网站如csdn时，可能会遇到403错误码。为解决此问题，可以添加User-Agent报文头使爬虫伪装成浏览器。具体操作包括：在浏览器中查看User-Agent，创建自定义opener对象，使用addheaders方法设置报头，然后通过install_opener安装opener，使得全局urlopen调用时使用伪装后的opener。

摘要由CSDN通过智能技术生成

存在问题

有些网站服务器会屏蔽爬虫（如csdn），使用爬虫会返回错误码403

解决方案

添加报文头的User-Agent信息，把爬虫伪装成浏览器。

怎么做

在需要爬取的网页中F12打开控制台，在network页中打开任一项资源，在Header栏中的Request Headers中找到User-Agent。

urlopen()方法无法实现添加报头的动作，需要建立自定义opener对象进行访问。

opener对象使用addheaders方法，向opener对象设置报头。然后利用open()方法向指定的URL地址发送请求，返回一个类文件对象。

可以把装配好的opener对象，使用install_opener(opener)方法安装至全局，则后面调用urlopen()时都会使用该全局opener。【不再用open()方法发送请求，而是用回urlopen()】

import urllib.request

url="https://blog.csdn.net/BananaChoas?spm=1011.2124.3001.5343&type=blog"

headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.44

最低0.47元/天解锁文章

Banana忍冬

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【python】【爬虫】伪装浏览器，解决错误码403

存在问题有些网站服务器会屏蔽爬虫（如csdn），使用爬虫会返回错误码403解决方案添加报文头的User-Agent信息，把爬虫伪装成浏览器。怎么做在需要爬取的网页中F12打开控制台，在network页中打开任一项资源，在Header栏中的Request Headers中找到User-Agent。...
复制链接

扫一扫

专栏目录