新人站长,使用雷池社区版WAF对抗防爬

反爬虫思路

  1. 请求签名:绑定客户端和 SESSION,随意修改 IP、User-Agent、浏览器指纹等信息后 SESSION 自动吊销

  2. 识别行为:检测鼠标键盘的使用习惯,检测浏览器窗口的拜访位置,综合判断是不是真人行为

  3. 识别无头浏览器:识别本地浏览器的客户端特征,禁止无头浏览器访问

  4. 识别自动化调用:识别本地浏览器是不是被自动化程序控制,禁止自动化控制的浏览器访问

  5. 交互识别:让用户参与网页交互验证码,比如滑动验证、识别图片、识别文字等

  6. 算力验证:注入算力验证脚本,消耗 CPU 资源,抬高客户端的访问成本,让原本每秒可以访问 1000 次的设备,在被雷池保护后每秒只能访问 1 次

  7. 防止请求重放:增加一次性验证,让 HTTP 请求脱离浏览器后无法重复发送,让复制后的 Cookie 失效

  8. 打乱 HTML 结构:对 HTML 代码结构进行动态打乱,让爬虫无法识别网页特征

  9. 混淆 JS 代码:对 JS 代码进行动态混淆,让攻击者无法识别有效的网页逻辑

怎么用雷池防爬虫

雷池 WAF 包含了市面上绝大部分的反爬虫技术,而且可以随意使用

安装好雷池 WAF 以后开启防爬虫相关的功能即可生效,如下图:

图片

图片

不出意外的话,1 分钟就能完成配置。完成配置以后,访问被雷池 WAF 防护的网站,就会看到雷池正在检查客户端环境的安全性。

图片

合法用户等待两三秒以后真正的网页内容会自动载入,恶意用户则会被阻拦。

如果检测到本地客户端被自动化程序控制,访问依然会被阻止,如下图:

图片

验证通过后查看网页源代码,会发现 HTML 和 JS 代码也都做了动态加密保护,虽然是相同的网页,但每次刷新看到的 HTML 代码结构都不同。

看一个例子,服务端的 HTML 文件如下图:

图片

经过雷池动态防护以后,浏览器里看到的 HTML 文件如下图:

图片

这里要说一下,雷池的人机识别采用的是云端验证方式,每一次验证都会调用长亭的云端 API 来辅助验证,结合长亭的 IP 威胁画像数据,浏览器指纹数据,最终对于爬虫的识别率超过 99.9%。与此同时,云端的算法和 JS 逻辑会持续自动更新,即使被厉害的大佬破解,破解的也只是过去的版本,我们永远跑在攻击者的前面。

看着这么高的识别率,网站站长们肯定会担心这会不会影响 SEO,会不会影响搜索引擎对于网站页面的收录情况。

答案当然是 “不会”,雷池贴心的提供了各大搜索引擎的爬虫 IP 列表,如果对 SEO 有需求,只需要对这些 IP 加白即可。

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值