怎样有效的防爬虫?

防爬虫,简单来说,就是在尽量减少对正常用户的干扰的情况下尽可能的加大爬虫的成本。而反防爬虫,或者说制造隐蔽性强的爬虫,就是尽量模拟正常用户的行为。这两者是动态博弈的。大公司基本都有防爬的项目,以保护数据安全。你去试试爬几个大网站就知道了。比如,github 用的是 rate limit , 就搜索接口而言,对非登录用户限制非常严格,一小时只允许几十次搜索。而对登录账号则很宽松。这样就把行为统计规约到了账号上,毕竟换账号成本比 ip 高。而谷歌则更复杂,比如它会在网页中执行一段 js , js 中做一些校检,然后服务器端将请求数据对比,这样那些不支持动态解析的爬虫就都死了。另外谷歌也会维护一份代理 ip列表,这样即使你使用代理也很容易死,当然很多收费代理使用的是一些黑科技,确实可以绕过这份列表。阿里内部也有一套专门的防爬系统,用的一个比较复杂的建模策略,能够直接无视代理 ip 的更换,从行为模式上检测出爬虫。比如一些特定数据受到非正常量级的请求,那么就可以判定有人在做坏事了。当然防爬有误报是正常的,所以一般反爬系统都要做一个容限,只有超过一定阀值了才会 bang 掉你。即使 bang 掉了,一般也是让你填一个验证码。无论你是做验证码识别,还是花钱人肉打码,他的目的其实都达到了:增加爬取者的成本。所以简单来说,一个成功的爬虫,需要这几个特点:模拟浏览器提交。简单的,使用 webkit 来提交数据,这个基本可以过大多数浏览源检测的反爬系统了。但是有的反爬系统检测浏览源的时候,会根据大众浏览器的一些特性,比如 IE,Firefox,Chrome 等的私有 js 函数来判定浏览器,这样 webkit ,以及一些封装好的 无界面浏览器 也被当成爬虫了。当然,你也可以利用调用 chromuim 来爬取数据,但是这个资源开销就更大了。控制单 ip/账号 频率。挂私有代理来爬的就不说了,大家都会用,但是对于一般人来说,几万 ip 差不多是极限了,所以一个 ip 还是得多次请求,账号同理。而控制了爬取速度,则意味着爬完一圈需要更多时间。时间都是成本。控制爬取策略。如果简单的只对目标数据进行爬取,那么如果反爬系统对访问概况和用户行为进行分析,其实很简单就能判定爬虫的那堆 ip : 你除了这堆数据什么都没访问,一看就不是正常用户。当然策略这个东西,就需要更多的博弈了。爬虫要增加迷惑度,需要去访问一些无关的东西,最后是研究正常用户的访问流程,然后模拟一遍。再者,控制速度。毕竟反爬系统的统计区间是肯定有限制的,不可能拿一个月的数据都分析一遍找出爬虫。以上,其实懂了爬虫的策略,反爬策略也很明朗了。爬虫成本 反爬系统的存在,意义就在于增加这个成本。当然也需要衡量自身的成本,毕竟不能本末倒置,反爬成本太高就没价值了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值