python爬虫出现HTTPError :403:forbidden错误!

背景:虚拟机上的ubuntu16.04做爬虫测试!

ubuntu自带火狐浏览器,查看自身的user-agent:

在网页按F12会出来一个窗口然后点network(网络) 然后在当前页面随便点一个链接就可以看到network里面有新的请求信息,点击就可以看详情,Request Headers(请求头)里面就有你要找的user-agent
 
运行程序,出现urllib2.HTTPError: HTTP Error 403: Forbidden
问题还没解决(2018/1/29/19:53)
昨晚没时间搞定,今早起来在看程序,发现网页的源码是拿的出的,而我要的图片拿不出来,看下面错误提醒:
 
<dd><a href="/site/pananzxw/typa/index.html" style="color:#9d9d9d">主题游</a></dd> <dd><a href="/site/pananzxw/zjxl/index.html" style="color:#9d9d9d">行程推荐</a></dd> <dd><a href="/site/pananzxw/tcgl/index.html" style="color:#9d9d9d">磐安攻略</a></dd> </dl> <dl class="fl"> <dt><a href="/site/pananzxw/payj/index.html" style="color:#9d9d9d">磐安印记</a></dt> <dd></dd> <dd><a href="/site/pananzxw/payji/index.html" style="color:#9d9d9d">磐安游记</a></dd> <dd><a href="/site/pananzxw/stzl/index.html" style="color:#9d9d9d">视听之旅</a></dd> <dd><a href="/site/pananzxw/mtzl/index.html" style="color:#9d9d9d">媒体专栏</a></dd> </dl> <!-- <dl class="fl"> <dt>在线问答</dt> <dt></dt> </dl> --> <div class="clr"></div> <p>主办单位:磐安县风景旅游管理局 备案:浙ICP备05038104号 技术支持:杭州致家网络科技有限公司 </p> </div> <div class="clr"></div> <a onClick="javascript:scroller('slide_1',800);" class="backtop" id="toTop"></a> </body> </html> /upload/0894ea84-8cd2-4a1b-953f-09c4eb26a3fc/eed8375f-739e-484d-aac7-9fe4d5610f67.jpg Traceback (most recent call last): File "chinanba图片.py", line 64, in <module> loadPage(url) File "chinanba图片.py", line 29, in loadPage writeImage(fulllink) File "chinanba图片.py", line 54, in writeImage image = urllib2.urlopen(request).read() File "/usr/lib/python2.7/urllib2.py", line 154, in urlopen return opener.open(url, data, timeout) File "/usr/lib/python2.7/urllib2.py", line 435, in open response = meth(req, response) File "/usr/lib/python2.7/urllib2.py", line 548, in http_response 'http', request, response, code, msg, hdrs) File "/usr/lib/python2.7/urllib2.py", line 473, in error return self._call_chain(*args) File "/usr/lib/python2.7/urllib2.py", line 407, in _call_chain result = func(*args) File "/usr/lib/python2.7/urllib2.py", line 556, in http_error_default raise HTTPError(req.get_full_url(), code, msg, hdrs, fp) urllib2.HTTPError: HTTP Error 403: Forbidden

能拿到源码这就说明user-agent是没问题的,检查程序,发现headers没写user-agent:

 
headers = {} request = urllib2.Request(link,headers = headers) image = urllib2.urlopen(request).read() 

给第二个headers添加好user-agent后,问题解决!成功拿出图片!
 


 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值