python与html交互出现403错误_Python如何解决403 Forbidden错误

在爬虫工作的过程中,我们经常会遇到一些问题,比如 407 authentication required,这个是授权问题,还有HTTP Error 403: Forbidden,这个可能是被反爬虫识别,被目标服务器拒绝请求。

那么403 Forbidden问题该怎么解决呢?这是很多朋友经常遇到的问题,如何做才不会被反爬虫识别呢?

一、使用高匿代理IP。代理IP按匿名程度可以分为透明代理、普匿代理、高匿代理。透明代理会透露本机IP,普匿代理会透露使用了代理IP,这两者都会暴露使用了代理IP,很容易识别,高匿代理则不会暴露。

二、尽量使用干净的代理IP。如果有很多其他人和你使用一样的IP同时访问一样的网站,那么也很容易被识别,当这些IP访问频率过快或者访问测试达到了目标网站的阈值时,则会被封IP。

三、伪装成浏览器。除了上面两个原因外,还有可能是代码里没设置User-Agent导致的。对有些 header 要特别留意,Server 端会针对这些 header 做检查。

User-Agent 有些 Server或Proxy会检查该值,用来判断是否是浏览器发起的Request。

Content-Type 在使用REST接口时,Server会检查该值,用来确定HTTP Body中的内容该怎样解析。

这时可以通过修改http包中的header来实现,代码片段如下:

import urllib2

headers = {

'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'

}

request = urllib2.Request(

headers = headers

)

print urllib2.urlopen(request).read()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值