传统反爬虫手段
1、后台对访问进行统计,如果单个IP访问超过阈值,予以封锁。
这个虽然效果还不错,但是其实有两个缺陷,一个是非常容易误伤普通用户,另一个就是,IP其实不值钱,几十块钱甚至有可能买到几十万个IP。所以总体来说是比较亏的。不过针对三月份呢爬虫,这点还是非常有用的。
2、后台对访问进行统计,如果单个session访问超过阈值,予以封锁。
这个看起来更高级了一些,但是其实效果更差,因为session完全不值钱,重新申请一个就可以了。
3、后台对访问进行统计,如果单个userAgent访问超过阈值,予以封锁。
这个是大招,类似于抗生素之类的,效果出奇的好,但是杀伤力过大,误伤非常严重,使用的时候要非常小心。至今为止我们也就只短暂封杀过mac下的火狐。
4、以上的组合
组合起来能力变大,误伤率下降,在遇到低级爬虫的时候,还是比较好用的。
selenium+phantomJs+tesseract
但phantomjs的特征太多太多,完全随便一点都可以识别出来
用 PPPoE 重新拨号换 IP,换 IP 同时重新开 Session,统计自己网站访客的 User Agent 以供按照比例随机挑选