urllib.error.HTTPError: HTTP Error 403: Forbidden（已解决）

最新推荐文章于 2024-09-16 13:00:00 发布

PerpetualLearner

最新推荐文章于 2024-09-16 13:00:00 发布

阅读量4.5w

点赞数 6

分类专栏： Error Record # 小白学量化交易文章标签： HTTPError error403 forbidden

本文链接：https://blog.csdn.net/The_Time_Runner/article/details/86522700

版权

urllib.request.urlopen 方式打开一个URL,服务器端只会收到一个单纯的对于该页面访问的请求,但是服务器并不知道发送这个请求使用的浏览器,操作系统,硬件平台等信息,而缺失这些信息的请求往往都是非正常的访问,例如爬虫.

有些网站为了防止这种非正常的访问,会验证请求信息中的UserAgent(它的信息包括硬件平台、系统软件、应用软件和用户个人偏好),如果UserAgent存在异常或者是不存在,那么这次请求将会被拒绝(如上错误信息所示)

加上浏览器伪装[方法见链接]就可以了。

headers = {
   'User-Agent':'Mozilla/5.0 3578.98 Safari/537.36'}
url = Request(url,headers=headers)
# 抓取数据e
content

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

PerpetualLearner

关注关注

6
点赞
踩
22

收藏

觉得还不错? 一键收藏
6
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

加载sklearn加州房价数据集出错 housing = fetch_california_housing() HTTPError: HTTP Error 403: Forbidden解决方案

weixin_43178406的博客

01-05

8万+

本文主要介绍了加载sklearn加利福尼亚州房价数据集出错 HTTPError: HTTP Error 403: Forbidden的解决方案，希望能对新手有所帮助。文章目录 1. 问题描述 2. 解决方案

urllib2.HTTPError: HTTP Error 403: Forbidden 错误

05-25

2905

转自：http://www.douban.com/note/131370224/ 出现urllib2.HTTPError: HTTP Error 403: Forbidden错误是由于网站禁止爬虫，可以在请求加上头信息，伪装成浏览器访问 #伪装浏览器头 headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en

6 条评论您还未登录，请先登录后发表或查看评论

报错解决办法：urllib.error.HTTPError: HTTP Error 403: Forbidden

Joyboy_1719的博客

07-02

551

报错出现在我要访问MNIST数据集网站的过程中这个错误是因为访问时被拒绝了。HTTP 403 错误意味着服务器理解请求但拒绝提供服务。

关于http的206状态码和416状态码的意义、断点续传以及CORS使用Access-Control-Allow-Origin来允许跨域请求

09-16

2050

对于跨域的请求，浏览器端先向目标服务器发送OPTION请求判断请求头中是否存在Access-Control-Allow-Origin头信息，Access-Control-Allow-Origin是允许跨域请求的标志。CORS全称跨域资源共享（Cross-origin resource sharing）,这是W3C的标准，即是使用Access-Control-Allow-Origin来允许跨域请求，对这种请求也有标准的处理流程。Access-Control-Allow-Headers 表示允许的请求头信息。

Python抓取中文网页

nevasun的专栏

03-08

9949

早就有想法把博客每天的访问流量记下来，刚好现在申请了GAE的应用，又开始学Python，正好拿这个练手。打算先利用Python把访问记录保存在本地，熟悉之后可以部署到GAE，利用GAE提供的cron就可以每天更近访问流量了。OK，开始~ 首先是简单的网页抓取程序： import sys, urllib2 req = urllib2.Request("http://blog.csdn.net/

Python 3.x 中"HTTP Error 403: Forbidden"问题的解决方案

白雾霾

09-07

2632

问题: urllib.request.urlopen() 方法经常会被用来打开一个网页的源代码,然后会去分析这个页面源代码,但是对于有的网站使用这种方法时会抛出"HTTP Error 403: Forbidden"异常例如执行下面的语句时 urllib.request.urlopen("http://blog.csdn.net/eric_sunah/article/details...

“Error 403--Forbidden”错误

　　OpenCms——中文资源第一博客

04-20

1万+

　　在一个项目中遇到了如下的问题，网上狂搜索，没找到产生的原因，还是自己研究吧，最后终于找到了原因：项目的web服务器是Apache+weblogic，apache负责处理静态页面，由于apache要处理的首页文件index.html不知什么原因丢失，所有出现了如下的错误，再次生成index.html，问题解决……有时候小问题也真难死人啊：（Error 403--Forbidden

【Python】已解决：urllib.error.HTTPError: HTTP Error 403: Forbidden

屿小夏.的知识博客

06-25

2456

在使用Python的urllib库进行网络请求时，有时会遇到urllib.error.HTTPError: HTTP Error 403: Forbidden这样的报错。出现这个问题的场景可能是在进行网页爬取、API调用或是其他需要通过网络请求获取数据的操作中。在这段代码中，如果url指向的资源需要特定的权限或身份验证，而请求没有提供这些信息，那么服务器可能会返回403 Forbidden错误。在这个修正后的代码中，我们通过设置请求头来模拟一个常见的浏览器用户代理，这有时可以规避服务器的限制。

urllib.error.HTTPError: HTTP Error 403: Forbidden

any10183的博客

04-11

482

问题: urllib.request.urlopen() 方法经常会被用来打开一个网页的源代码,然后会去分析这个页面源代码,但是对于有的网站使用这种方法时会抛出"HTTP Error 403: Forbidden"异常例如执行下面的语句时 [python] <span style="font-size:14px;"> urllib.request.urlope...

使用python爬取图片写入文件夹，附urllib.error.HTTPError: HTTP Error 403: Forbidden问题解决

快乐星球

06-08

1419

今天尝试通过python将图片url下载并写入文件夹，一开始我直接使用urllib包下的request，没有使用User-Agent请求头，结果爬取过程中报错，提示： urllib.error.HTTPError: HTTP Error 403: Forbidden。 in http_error_default raise HTTPError(req.full_url, code, msg, hdrs, fp) 初步分析，应该是因为网站采取的反爬虫手段，导致爬取失败。后又尝试使用requests的get

fetch_lfw_people（）报错urllib.error.HTTPError: HTTP Error 403: Forbidden的解决方案

蓝多多的小仓库

06-16

324

fetch_lfw_people（）报错urllib.error.HTTPError: HTTP Error 403: Forbidden的解决方案

加载sklearn新闻数据集出错 fetch_20newsgroups() HTTPError: HTTP Error 403: Forbidden解决方案

热门推荐

weixin_43178406的博客

02-11

3万+

本文主要介绍了加载sklearn新闻数据集出错 fetch_20newsgroups() HTTPError: HTTP Error 403: Forbidden解决方案，希望能对新手有所帮助。文章目录 1. 问题描述 2. 解决方案

urllib2.HTTPError: HTTP Error 403: Forbidden的解决方案

weixin_30278237的博客

04-22

1194

在使用python爬取网络爬虫时,经常会以为目标网站因为禁止爬取网络爬虫而出现403 Forbidden的错误问:为什么会出现403 Forbidden的错误答:出现urllib2.HTTPError: HTTP Error 403: Forbidden错误的原因主要是由于目标网站禁止爬虫导致的，可以在请求加上请求头信息. 问:那么应该如何解决呢? 答:只要模拟正常浏...

网络爬虫urllib.error.HTTPError: HTTP Error 403: Forbidden的问题方法

junkmachine的博客

08-16

1万+

今天学习《Python网络爬虫权威指南》第三章的时候，在写爬取wiki网站的代码时遇到了问题：urllib.error.HTTPError: HTTP Error 403: Forbidden。通过在网上查阅资料，问题出在了我们直接urlopen提出访问申请是非正常的申请，缺少网站需要的信息，会被拒接访问：之所以出现上面的异常,是因为如果用 urllib.request.urlopen 方式打开一个URL,服务器端只会收到一个单纯的对于该页面访问的请求,但是服务器并不知道发送这个请求使用的浏览器,操作系

HTTP Error 403: Forbidden 爬虫打开网页报错（已解决）

weixin_51098806的博客

03-16

7201

1.首先先来看初始的代码 import urllib.request url = "http://jandan.net/ooxx" response = urllib.request.urlopen(url) html = response.read().decode("utf-8") print(html) 这里直接是给urlopen（）传入网址，没有经过任何的隐藏所以报错因为现在大部分的网站都是有反爬的，会给你识别到是不是用户访问页面的这里就需要访问的时候添加headers属性更改后代码为：

python实现简易网络爬虫

追智的专栏

10-11

767

python实现简易网络爬虫

爬虫403问题解决urllib.error.HTTPError: HTTP Error 403: Forbidden

05-17

当你使用 urllib 库进行网络请求时，出现 HTTP Error 403: Forbidden 错误，这意味着服务器拒绝了你的请求。这通常是因为你的请求被防火墙或网站服务器拦截。有一些方法可以解决这个问题： 1. 修改 User-Agent 有些网站会根据 User-Agent 来判断请求的来源，如果 User-Agent 不合法，就会拒绝请求。因此，你可以通过修改 User-Agent 来模拟浏览器请求。例如： ```python import urllib.request url = 'http://www.example.com/' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'} req = urllib.request.Request(url, headers=headers) response = urllib.request.urlopen(req) html = response.read() ``` 2. 使用代理IP 如果你的 IP 被网站服务器封禁，可以使用代理 IP 来绕过限制。例如： ```python import urllib.request url = 'http://www.example.com/' proxy = urllib.request.ProxyHandler({'http': 'http://127.0.0.1:8888'}) opener = urllib.request.build_opener(proxy) urllib.request.install_opener(opener) response = urllib.request.urlopen(url) html = response.read() ``` 其中，`http://127.0.0.1:8888` 是代理服务器的地址。你可以在网上找到一些免费的代理服务器，在代码中修改为对应的地址即可。 3. 等待一段时间再请求有些网站会对频繁请求进行限制，你可以等待一段时间再进行请求，或者减少请求频率。如果你是在爬取大量数据，建议使用异步爬虫库，如 asyncio、aiohttp 等，可以提高效率，并减少请求频率。以上是一些常见的方法，但不保证一定可以解决问题。在实际操作中，还需要根据具体情况进行调整。