打从有采集这件事情开始,就有防采集的诞生。
今天,我们就一起来说说这些年遇到的各种防采集策略。
1、限制IP单位时间访问次数还有频率
背景:没有哪个常人一秒钟内能访问相同网站N次(不管是不是同一个网页)
解决办法:一般遇到这种情况我们就放缓采集频率,不管你写代码添加Sleep,或者在我们八爪鱼里面设置间隔时间都可以解决
进化1:有些高级点的防采集策略,他甚至监控到每个请求的频率,如果一直处于同一个频率,比如一秒一次,他也是会封。
解决办法:这种情况一般就需要我们在采集间隔里面加上随机数,每次访问的频率相对随机。
进化2:有些更残忍的防采集策略,他甚至会监控每IP每天或每时段请求网页的数量。因为他可以通过数据分析,知道大体上他真实的用户一般最多会访问他多少网页,如果超过,他也照样封。
解决办法:这种情况也就只有用多IP或者多服务器来解决了,虚拟出许多不同的终端在访问,平摊访问资源。八爪鱼在这块也提供了代理IP池套餐与旗舰版云服务器集群来保障。
2、验证码
背景:验证码天生就是一个识别你到底是人还是机器的神器