python3 HTTP Error 403:Forbidden

最新推荐文章于 2024-07-02 12:36:15 发布

dz45693

最新推荐文章于 2024-07-02 12:36:15 发布

阅读量2.7k

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/ma_jiang/article/details/83214965

版权

初学者在使用Python的urllib.request模块访问网页时遇到HTTP Error 403: Forbidden错误。该错误通常由于网站的反爬虫策略导致。解决方案是通过伪装成浏览器来规避限制。可以使用urlopen()方法，通过设置代理或模拟浏览器头信息来获取数据。此外，urlretrieve()方法可用于直接下载远程数据到本地。

摘要由CSDN通过智能技术生成

问题描述
初学python，在用python中的urllib.request.urlopen()和urllib.request.urlretrieve方法打开网页时，有些网站会抛出异常: HTTP Error 403:Forbidden

问题原因
网站对爬虫的操作进行了限制

解决方法
伪装成浏览器，

headers = {'User-Agent':'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0'}
req=urllib.request.Request(url=target_url,headers=headers) 
urllib.request.urlopen(req).read()

import urllib.request
opener = urllib.request.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
urllib.request.install_opener(opener)
urllib.request.urlretrieve("type URL here", "path/file_name")

基础用法如下：

1.urlopen()方法
urllib.urlopen(url[, data[, proxies]]) :创建一个表示远程url的类文件对象，然后像本地文件一样操作这个类文件对象来获取远程数据。
参数url表示远程数据的路径，一般是网址

最低0.47元/天解锁文章

dz45693

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python3 HTTP Error 403:Forbidden

问题描述初学python，在用python中的urllib.request.urlopen()和urllib.request.urlretrieve方法打开网页时，有些网站会抛出异常: HTTP Error 403:Forbidden问题原因网站对爬虫的操作进行了限制解决方法伪装成浏览器，headers = {'User-Agent':'Mozilla/5.0 (X11; Ub...
复制链接

扫一扫

专栏目录