WAF系统如何防爬虫

securitysun

已于 2022-04-23 15:43:18 修改

阅读量1.9k

点赞数

分类专栏：应用安全文章标签： web 安全系统安全 web安全

于 2020-05-26 11:31:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/realmardrid/article/details/106352058

版权

应用安全专栏收录该内容

30 篇文章 2 订阅

订阅专栏

恶意爬虫则可能会在某个时间段大量请求某个域名的特定地址或接口，这种情况很可能是伪装成爬虫的CC攻击，或是经第三方伪装后针对性爬取敏感信息的请求。当恶意爬虫请求量大到一定程度，往往造成服务器的CPU飙升，导致网站无法访问等业务中断问题。

WAF针对恶意爬虫进行风险预警，提示用户昨日的爬虫请求情况。可以结合具体的业务情况，有针对性地配置下列规则中的一种或几种，拦截对应的爬虫请求。用户自定义规则。

默认UA，爬虫软件禁封。太low

CC频次，具体url。变幻ip 肉鸡 cc无效

地域禁封。太狠

威胁情报实时计算得到的恶意爬虫各种IP情报库。技术要求较高

用户自定义规则UA。url+ua。临时针对攻击特征添加规则

合法爬虫：主流搜索引擎的爬虫IP信息，可动态更新，目前包含Google、百度、搜狗、360、Bing、Yandex。

启用合法爬虫规则后，来自相关搜索引擎的合法爬虫IP将被直接放行；此时您还可以使用黑白名单或精准访问控制规则进一步拦截来自于这些白名单IP的请求。

阿里云全网威胁情报实时计算得出的恶意爬虫IP情报库，以及动态更新的各大公有云/IDC IP库（很多爬虫程序会选择部署在云服务器上，而正常用户则很少通过公有云/IDC的源IP来访问您的业务）。

在控制台选择域名：

合法爬虫配置->Google、百度、搜狗、360、Bing、Yandex爬虫白名单选项，开启or关闭。

威胁情报->扫描器恶意指纹库→恶意扫描ip情报库

->IDC ip库阿里云

→IDC ip库腾讯云，开启or关闭。

→IDC ip库其他、世纪互联

->撞库IP情报库

->伪造白名单蜘蛛情报库

->恶意爬虫情报库

扫描工具ua

扫描器恶意指纹库

常见扫描器的特征库。

恶意扫描IP情报库

基于全网实时检测到的恶意扫描行为攻击源IP进行分析，得到的动态IP情报库。

撞库IP情报库

基于全网实时检测到的撞库、暴力破解行为攻击源IP进行分析，得到的动态IP情报库。

模仿google bing爬虫程序，爬虫的日志收集。

伪造蜘蛛情报库

识别爬虫程序伪造合法搜索引擎的user-agent（如BaiduSpider）来逃避检测的行为。

注意开启该名单之前，请确保已经放行合法爬虫白名单，否则可能导致误拦截。

web防火墙识别出恶意爬虫后，error log落地供下次使用。

恶意爬虫情报库

基全网实时检测到的爬虫行为攻击源IP进行分析，得出的动态IP情报库。

该名单库有低级、中级、高级三个等级。级别越高，对应的情报库内IP数量越多，相应的误判概率更大。

建议您对高级情报库规则设置二次校验（使用滑块验证、JS校验等处置动作）；对不适用于二次校验的场景（如API等）配置低级别的情报库规则。

合作方式获取idc ip

IDC情报库

相关公有云或IDC机房的IP库，包括：阿里云、腾讯云、世纪互联、其他。这些IP段往往被爬虫用于部署爬虫程序或用作代理，而不会被正常用户使用。

爬虫特点：

模仿真人行为

加载 JavaScript 和外部资源

模拟cookie和 useragent

浏览器自动化操作

变化的IP地址池

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
WAF系统如何防爬虫

恶意爬虫则可能会在某个时间段大量请求某个域名的特定地址或接口，这种情况很可能是伪装成爬虫的CC攻击，或是经第三方伪装后针对性爬取敏感信息的请求。当恶意爬虫请求量大到一定程度，往往造成服务器的CPU飙升，导致网站无法访问等业务中断问题。WAF针对恶意爬虫进行风险预警，提示用户昨日的爬虫请求情况。可以结合具体的业务情况，有针对性地配置下列规则中的一种或几种，拦截对应的爬虫请求。用户自定义规则。默认UA，爬虫软件禁封。太lowCC频次，具体url。变幻ip 肉鸡 cc无效地域禁封。 ...
复制链接

扫一扫

专栏目录

securitysun CSDN认证博客专家 CSDN认证企业博客

码龄9年

252: 原创

1万+: 周排名

15万+: 总排名

47万+: 访问

: 等级

4166: 积分

6580: 粉丝

121: 获赞

98: 评论

603: 收藏

私信

关注

热门文章

分类专栏

最新评论

nginx的mirror与subrequest源码分析
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接。
nginx大量返回502排查过程
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接；(3)增加条理清晰的目录。
nginx日志模块ngx_http_log_module源码分析
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)提升标题与正文的相关性；(3)使用更多的站内链接。
owasp crs规则评分阈值调试记录
securitysun: 是的，后者比较好封装给lua用
owasp crs规则评分阈值调试记录
卡了个卡: 哦哦，最近正研究相关工作，想用lua来写，但感觉太复杂了，貌似也可以用lua来绑定libmodsecurity，有些纠结。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。