新人站长，使用雷池社区版WAF对抗防爬

咖啡星人k

已于 2024-12-02 11:28:44 修改

阅读量529

点赞数 6

分类专栏：雷池社区版相关文章标签： linux 云计算 ubuntu web安全

于 2024-11-29 17:28:24 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2404_89164415/article/details/144142255

版权

雷池社区版相关专栏收录该内容

12 篇文章

订阅专栏

反爬虫思路

请求签名：绑定客户端和 SESSION，随意修改 IP、User-Agent、浏览器指纹等信息后 SESSION 自动吊销
识别行为：检测鼠标键盘的使用习惯，检测浏览器窗口的拜访位置，综合判断是不是真人行为
识别无头浏览器：识别本地浏览器的客户端特征，禁止无头浏览器访问
识别自动化调用：识别本地浏览器是不是被自动化程序控制，禁止自动化控制的浏览器访问
交互识别：让用户参与网页交互验证码，比如滑动验证、识别图片、识别文字等
算力验证：注入算力验证脚本，消耗 CPU 资源，抬高客户端的访问成本，让原本每秒可以访问 1000 次的设备，在被雷池保护后每秒只能访问 1 次
防止请求重放：增加一次性验证，让 HTTP 请求脱离浏览器后无法重复发送，让复制后的 Cookie 失效
打乱 HTML 结构：对 HTML 代码结构进行动态打乱，让爬虫无法识别网页特征
混淆 JS 代码：对 JS 代码进行动态混淆，让攻击者无法识别有效的网页逻辑

怎么用雷池防爬虫

雷池 WAF 包含了市面上绝大部分的反爬虫技术，而且可以随意使用。

安装好雷池 WAF 以后开启防爬虫相关的功能即可生效，如下图：

不出意外的话，1 分钟就能完成配置。完成配置以后，访问被雷池 WAF 防护的网站，就会看到雷池正在检查客户端环境的安全性。

合法用户等待两三秒以后真正的网页内容会自动载入，恶意用户则会被阻拦。

如果检测到本地客户端被自动化程序控制，访问依然会被阻止，如下图：

验证通过后查看网页源代码，会发现 HTML 和 JS 代码也都做了动态加密保护，虽然是相同的网页，但每次刷新看到的 HTML 代码结构都不同。

看一个例子，服务端的 HTML 文件如下图：

经过雷池动态防护以后，浏览器里看到的 HTML 文件如下图：

这里要说一下，雷池的人机识别采用的是云端验证方式，每一次验证都会调用长亭的云端 API 来辅助验证，结合长亭的 IP 威胁画像数据，浏览器指纹数据，最终对于爬虫的识别率超过 99.9%。与此同时，云端的算法和 JS 逻辑会持续自动更新，即使被厉害的大佬破解，破解的也只是过去的版本，我们永远跑在攻击者的前面。

看着这么高的识别率，网站站长们肯定会担心这会不会影响 SEO，会不会影响搜索引擎对于网站页面的收录情况。

答案当然是 “不会”，雷池贴心的提供了各大搜索引擎的爬虫 IP 列表，如果对 SEO 有需求，只需要对这些 IP 加白即可。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。