python爬虫出现HTTPError ：403：forbidden错误！

最新推荐文章于 2025-07-28 11:21:42 发布

原创最新推荐文章于 2025-07-28 11:21:42 发布 · 5.8k 阅读

1 ·

CC 4.0 BY-SA版权

python爬虫专栏收录该内容

6 篇文章

订阅专栏

本文介绍了解决在Ubuntu 16.04上使用Python爬虫遇到的403 Forbidden错误的过程。通过检查并正确设置User-Agent头部信息，成功获取了目标网站的图片资源。

背景：虚拟机上的ubuntu16.04做爬虫测试！

ubuntu自带火狐浏览器，查看自身的user-agent：

在网页按F12会出来一个窗口然后点network（网络） 然后在当前页面随便点一个链接就可以看到network里面有新的请求信息，点击就可以看详情,Request Headers（请求头）里面就有你要找的user-agent

运行程序，出现urllib2.HTTPError: HTTP Error 403: Forbidden

问题还没解决（2018/1/29/19：53）

昨晚没时间搞定，今早起来在看程序，发现网页的源码是拿的出的，而我要的图片拿不出来，看下面错误提醒：

<dd><a href="/site/pananzxw/typa/index.html" style="color:#9d9d9d">主题游</a></dd> <dd><a href="/site/pananzxw/zjxl/index.html" style="color:#9d9d9d">行程推荐</a></dd> <dd><a href="/site/pananzxw/tcgl/index.html" style="color:#9d9d9d">磐安攻略</a></dd> </dl> <dl class="fl"> <dt><a href="/site/pananzxw/payj/index.html" style="color:#9d9d9d">磐安印记</a></dt> <dd></dd> <dd><a href="/site/pananzxw/payji/index.html" style="color:#9d9d9d">磐安游记</a></dd> <dd><a href="/site/pananzxw/stzl/index.html" style="color:#9d9d9d">视听之旅</a></dd> <dd><a href="/site/pananzxw/mtzl/index.html" style="color:#9d9d9d">媒体专栏</a></dd> </dl> <!-- <dl class="fl"> <dt>在线问答</dt> <dt></dt> </dl> --> <div class="clr"></div> <p>主办单位：磐安县风景旅游管理局 备案：浙ICP备05038104号 技术支持：杭州致家网络科技有限公司 </p> </div> <div class="clr"></div> <a onClick="javascript:scroller('slide_1',800);" class="backtop" id="toTop"></a> </body> </html> /upload/0894ea84-8cd2-4a1b-953f-09c4eb26a3fc/eed8375f-739e-484d-aac7-9fe4d5610f67.jpg Traceback (most recent call last): File "chinanba图片.py", line 64, in <module> loadPage(url) File "chinanba图片.py", line 29, in loadPage writeImage(fulllink) File "chinanba图片.py", line 54, in writeImage image = urllib2.urlopen(request).read() File "/usr/lib/python2.7/urllib2.py", line 154, in urlopen return opener.open(url, data, timeout) File "/usr/lib/python2.7/urllib2.py", line 435, in open response = meth(req, response) File "/usr/lib/python2.7/urllib2.py", line 548, in http_response 'http', request, response, code, msg, hdrs) File "/usr/lib/python2.7/urllib2.py", line 473, in error return self._call_chain(*args) File "/usr/lib/python2.7/urllib2.py", line 407, in _call_chain result = func(*args) File "/usr/lib/python2.7/urllib2.py", line 556, in http_error_default raise HTTPError(req.get_full_url(), code, msg, hdrs, fp) urllib2.HTTPError: HTTP Error 403: Forbidden

能拿到源码这就说明user-agent是没问题的，检查程序，发现headers没写user-agent：

headers = {} request = urllib2.Request(link,headers = headers) image = urllib2.urlopen(request).read()

给第二个headers添加好user-agent后，问题解决！成功拿出图片！