反爬虫技术

1.反爬虫是因为爬虫才诞生的,想要很好的运用反爬虫,就要先清楚爬虫及爬虫机制。先了解一下爬虫,反爬虫的概念,如下:
爬虫:使用任何技术及手段,批量抓取网站信息的一种方法,且关键在于 批量。
反爬虫:即为使用任何技术及手段,阻止被人 抓取自己网站信息的一种方法,关键在于批量和减少阻止过程中的误伤。
2.反爬虫是针对爬虫设计的,一般架构如下:
对请求进行数据统计等预处理,便于识别爬虫
识别是否是爬虫
针对识别结果,进行适当处理
通常网站为力避免普通用户遭到 误伤,而做不到完全的拦截爬虫机制的!
3.目前常用的反爬虫技术

  • (1.)后台对访问进行统计,单位时间内同一IP访问的次数超过一个特定的值(阀值),就封IP。效果不是很好,不过针对三月爬虫效果还是不错的,目前用的也是很多的。
    -(2.)后台对访问的session进行统计,单位时间内同一session访问的次数超过一个特定的阀值,就封IP,同样效果不是很好,好的爬虫仍然能伪装的躲过。
  • ( 3.)后台对访问的User_Agent进行统计,单位时间内同一User_Agent访问的次数超过特定的阀值,封IP,此法效果不过,但误伤大,任何误伤大的反爬虫机制,无论效果多好,都会被谨慎使用的。
  • (4.)重要数据需账号注册登录后方可获得,同时利用js和AJAX的动态效果,只让正常登录者访问,让爬虫无法正常读取,进行发爬虫,效果相对较好。
  • (5.)对数据进行玷污处理,真假数据混合存储,不知道正确的解析方式,数据拿到手也是无用。
  • (6.)交押金,用户先交押金才能访问,当访问重要数据时扣除相应的押金,一定周期进行结算,后台根据日志,IP,User_Agent,session等进行统计分析,对于真正的用户退还押金,爬虫用户押金没收同时封IP。此法有一定的可行性,但也有诸多弊端。
    目前网站的反爬虫机制都不是以上单一的一个,再好的反爬虫机制也是不能做到完全反爬虫的,爬虫与反爬虫相爱相杀的促进技术的更新换代。
  • 7
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值