用代理服务器加速爬虫速率

最新推荐文章于 2024-07-29 15:35:41 发布

Halfangle

最新推荐文章于 2024-07-29 15:35:41 发布

阅读量2w

点赞数 1

分类专栏：数据准备日常文本问题文章标签：代理服务器新浪微博爬虫网易新闻

本文链接：https://blog.csdn.net/u010533386/article/details/51441511

版权

博主在应对网站反爬虫策略时分享了经验。针对新浪微博的限制，采用多个微博账号和分布式计算；而对于网易新闻，利用公开代理服务器进行爬取，通过多线程测试代理的可用性和速度，构建urllib2的opener来请求数据。

摘要由CSDN通过智能技术生成

我在爬数据的时候发现绝大多数目标网站都具有反爬虫策略，最简单的反爬虫策略包括限制单位时间内同一ip的访问次数，或同一个登陆账户的访问次数（通过cookies实现）。例如新浪微博两者都有，网易新闻限制了ip访问次数等。

对于新浪微博，我的策略是申请了几十个微薄帐号，在分布式框架下通过十几台计算机（独立ip）进行轮爬。没有用代理服务器的方法，是因为代理服务器大多不是本地ip，如果一个用户帐号被发现经常在不同地区登陆，会被要求进行验证码验证，而在python下添加自动验证码验证的识别率不高，所以放弃了。值得一提的时，本来goagent在美国有一个代理网段是可以用来加速的，但是我太激进，没有设置请求间隔，一晚上爬了十几万个页面，造成以后挂那个网段的代理都被要求验证码验证。

对于网易新闻这类不严格要求登陆的网站，就可以用不同地区的公开代理服务器进行加速了，甚至国外地址都没有问题。他们自己的PM说不定还会兴高采烈地跟上层汇报产品的国际访问量大幅上升，呵呵。

公开的代理服务器很多，而且一些黑客站点会将其公开出来，类似地有挂在Russia的：proxylist 和国内的 cn-proxy . 里面的代理地址一般保持5分钟更新。另外要注意的是，这些代理服务器不一定能够访问你的目标网站，所以最好把他们都搜集下来，维护一个列表，在启动爬虫之前用目标网站的一个页面测试一下。

下面我把自己的测试方法给出来，ProxyData.py是反馈ip地址的，ProxyFind.py是通过多线程方法来测试代理的访问速度，如果不用多线程测试万数千个代理可能需要若干小时时间…

    #ProxyData.py
    #省略了好几千个代理，大家自己去搜集列表吧
    proxies = ['117.135.250.134:80','117.135.250.133:8083','117.135.250.130:84','117.135.251.132:83','117.135.250.134:8083'] 

    def