前言
我们在做爬虫的时候,在爬虫去数据的过程中,有时候遇到这样的情况:程序最开始抓取数据可以正常运行,拿到数据,一切看起来是那么美好,然而不一会功夫可能就出现错误,比如403Forbidden;但是过了一会爬虫又可以成功运行了,但是一会有出现这种情况。
出现这个现象的原因是网站采取了一些反爬虫的措施。服务器在检测到某个IP在单位时间内的请求次数过高,比如说,你1s内向服务器发送了1000次请求,这样服务器会判定当前访问为爬虫,直接拒绝服务。这个我们可以称之为封IP。一般服务器封IP会有个时间,即封掉你的IP一段时间,比如说10min,1h。
不过反过来想,既然服务器是检测我们单位时间内的发送请求的次数,那我们借助很多IP来发送请求是不是就可以了。这就是代理。
本来我们要用一个ip去发送大量的请求去获得数据,使用IP伪装,我们可以每个代理ip发送一个请求,这样就可以防止ip被封了。
一、获取代理
搜索引擎搜索代理,就会跳出来很多代理服务网站,网站上有很多免费代理。但是这些免费代理大多数情况下是不好用的,所以一般公司或者有需求的人员会选择购买付费代理。
在这个网站上我们来找一个免费代理来做一个测试。
用代理去访问百度&#