Python:爬虫使用代理防封IP：HTTP Error 403: Forbidden

最新推荐文章于 2024-08-19 17:05:17 发布

ShomyLiu

最新推荐文章于 2024-08-19 17:05:17 发布

阅读量2.9w

点赞数 1

分类专栏： python 文章标签： python 代理

本文链接：https://blog.csdn.net/shomy_liu/article/details/47066231

版权

python 专栏收录该内容

40 篇文章 1 订阅

订阅专栏

在写爬虫爬取数据的时候，经常遇到如下的提示,

HTTP Error 403: Forbidden

之前已经写了一个使用多个headers 的笔记，但是这种还是只有一个IP 只不过是伪装为不同的浏览器而已，所以想做到更近一步防止被封，还是需要及时更换不同IP，下面记录一下python 使用代理爬取的过程。PS: 爬虫尽量不要太频繁的说。。。

直接上代码吧：

proxy_list=[#这是我当时用的代理IP，请更新能用的IP
    '202.106.169.142:80',   
    '220.181.35.109:8080',  
    '124.65.163.10:8080',
    '117.79.131.109:8080',
    '58.30.233.200:8080',
    '115.182.92.87:8080',
    '210.75.240.62:3128',
    '211.71.20.246:3128',
    '115.182.83.38:8080',
    '121.69.8.234:8080',
        ]

#接着在你使用的到urllib2的代码中，绑定某个IP，如下：
proxy       = random.choice(proxy_list)
urlhandle   = urllib2.ProxyHandler({'http':proxy})
opener      = urllib2.build_opener(urlhandle)        
urllib2.install_opener(opener) 

#正常使用urllib
req         = urllib2.Request(listurl,headers=headers)
content     = urllib2.urlopen(req).read()