Python:爬虫使用代理防封IP:HTTP Error 403: Forbidden

在写爬虫爬取数据的时候,经常遇到如下的提示,

HTTP Error 403: Forbidden

之前已经写了一个使用多个headers笔记,但是这种还是只有一个IP 只不过是伪装为不同的浏览器而已,所以想做到更近一步防止被封,还是需要及时更换不同IP,下面记录一下python 使用代理爬取的过程。PS: 爬虫尽量不要太频繁的说。。。

直接上代码吧:

proxy_list=[#这是我当时用的代理IP,请更新能用的IP
    '202.106.169.142:80',   
    '220.181.35.109:8080',  
    '124.65.163.10:8080',
    '117.79.131.109:8080',
    '58.30.233.200:8080',
    '115.182.92.87:8080',
    '210.75.240.62:3128',
    '211.71.20.246:3128',
    '115.182.83.38:8080',
    '121.69.8.234:8080',
        ]

#接着在你使用的到urllib2的代码中,绑定某个IP,如下:
proxy       = random.choice(proxy_list)
urlhandle   = urllib2.ProxyHandler({'http':proxy})
opener      = urllib2.build_opener(urlhandle)        
urllib2.install_opener(opener) 

#正常使用urllib
req         = urllib2.Request(listurl,headers=headers)
content     = urllib2.urlopen(req).read()

根据具体在爬取时光网,豆瓣的电影时,的使用经验:说明一下
- 免费的代理很不太稳定,如果大量长时间爬取,还是稍微花点小钱吧,很便宜。
- 找那些免费代理IP, 使用那些高匿的代理。推荐这个网站

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值