随着互联网的不断发展,很多计算机工作者不再满足于不能自己控制的目标不够明确的搜索引擎,于是网络爬虫应景而生.大量网络爬虫的应用会显著地增加目标网站的服务器的负载,影响正常浏览网站用户的体验.因此网站为了对抗网络爬虫技术带给网站的影响,反爬虫技术由此而生。
一、IP活动出现异常
网站主能够利用网站流量统计看得出一些异常浏览,例如相同IP地址推送了越来越多相近的请求,相同IP浏览的速度反人类,那么网站主便会作出反击。·
1、浏览速率限定
2、浏览频繁出现验码
3、限定此IP浏览时长
反爬建议:通过使用**万变ip**代理,减少单ip访问的频次与次数,也能很好的保护个人真实ip地址。 选择代理IP,减少单IP访问频率和次数。
二、注册和登录
越来越多网站或是论坛都有限定,必须注册登录了才可以浏览某些版块,可是也会避免批量注册和登录,例如注册需要Email验证或是手机验证,需要利用推送的邮件链接或是短信验证码来解锁账户,而且具备唯一性;注册和登录时还需要填写复杂的验码等等。
反爬建议:批量注册或是选择账户,仿真模拟登录,减少频率。
三、采用验码
验码能够有效性地阻拦网络爬虫,但也会对真正的用户造成不太好的体验,例如浏览了几个页面就弹出来验码,这是很不友好的。
一些网站将文本转变成图片来显示,为此来阻拦网络爬虫,这类方法能够阻拦简单的网络爬虫获取文本,但针对一些屏幕阅读器来说很不友好,例如在电脑上能够看清楚图片中的文本,但在移动手机端看就特别模糊了。四、文本转图片
反爬建议:采用OCR图片识别技术。