天下没有什么事能难倒网络爬虫,无论是你设置了接口频率限制,还是User Agent判断,统统没有卵用,其有ip库快速切换,User Agent照着客户端的请求规则适配,更甚者搞个服务专门hack token,提供给网络爬虫用,分分钟破解,反爬之路任重而道远
方法/步骤
-
技术压制
不要一开始就设置得很高,否则别人一上来把你的爬虫机制反掉,你就没有还手的招数了。要循序渐进。
-
引狼入室
一开始,你最好假装自己的系统是毫无防护的,让别人用最简单的网络爬虫代码来爬你,这时候,网络爬虫的特征通常很明显,甚至不经过任何伪装
-
以假乱真
这些数据跟真实数据还可以一模一样,但是里面一定要有几个字段是随机乱写的,难以发现,却又破坏规则。
-
放水
只要对方不是恶意攻击或者抓取涉及机密的内容,站长大可以放他一马。不为难彼此。
END
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31561288/viewspace-2565419/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/31561288/viewspace-2565419/