python爬虫设置User-Agent解决HTTPError: HTTP Error 403: Forbidden

最新推荐文章于 2024-06-05 10:42:20 发布

baozouxiaoxian

最新推荐文章于 2024-06-05 10:42:20 发布

阅读量1.2k

点赞数

分类专栏： requests urllib python 文章标签： python 大数据爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45614899/article/details/109843540

版权

python 同时被 3 个专栏收录

15 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

python读取网页常用以下两个方式：
from urllib.request import urlopen
在这里插入图片描述

import requests
在这里插入图片描述
urlopen使用read()方法，requests使用text属性即可。

解析使用
from bs4 import BeautifulSoup
soup=BeautifulSoup(content, ‘lxml’)

但是，当启动程序打开一个URL时，如果不设置userAgent，服务器获取不到request的浏览器类型、操作系统、硬件平台等信息，无法得知发送这个请求的是浏览器，往往判定这是非正常的访问，如spider程序，则可能会出现
HTTPError: HTTP Error 403: Forbidden

因此，F12打开开发者工具，选择Network，搜索User-Agent，找到对应的信息，复制下来，设置给header属性，这样就可以顺利访问了。
在这里插入图片描述
把这个字符串赋值给header即可。

最后，在请求访问时就可以获取正常的网页内容解析了。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
1
评论
python爬虫设置User-Agent解决HTTPError: HTTP Error 403: Forbidden

python读取网页常用以下两个方式：from urllib.request import urlopenimport requestsurlopen使用read()方法，requests使用text属性即可。解析使用from bs4 import BeautifulSoupsoup=BeautifulSoup(content, ‘lxml’)但是，当启动程序打开一个URL时，如果不设置userAgent，服务器获取不到request的浏览器类型、操作系统、硬件平台等信息，无法得知发送这个
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

baozouxiaoxian 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。