恶意爬虫则可能会在某个时间段大量请求某个域名的特定地址或接口,这种情况很可能是伪装成爬虫的CC攻击,或是经第三方伪装后针对性爬取敏感信息的请求。当恶意爬虫请求量大到一定程度,往往造成服务器的CPU飙升,导致网站无法访问等业务中断问题。
WAF针对恶意爬虫进行风险预警,提示用户昨日的爬虫请求情况。可以结合具体的业务情况,有针对性地配置下列规则中的一种或几种,拦截对应的爬虫请求。用户自定义规则。
默认UA,爬虫软件禁封。太low
CC频次,具体url。变幻ip 肉鸡 cc无效
地域禁封。 太狠
威胁情报实时计算得到的恶意爬虫各种IP情报库。技术要求较高
用户自定义规则UA。url+ua。 临时针对攻击特征添加规则
合法爬虫:主流搜索引擎的爬虫IP信息,可动态更新,目前包含Google、百度、搜狗、360、Bing、Yandex。
启用合法爬虫规则后,来自相关搜索引擎的合法爬虫IP将被直接放行;此时您还可以使用黑白名单或精准访问控制规则进一步拦截来自于这些白名单IP的请求。
阿里云全网威胁情报实时计算得出的恶意爬虫IP情报库,以及动态更新的各大公有云/IDC IP库(很多爬虫程序会选择部署在云服务器上,而正常用户则很少通过公有云/IDC的源IP来访问您的业务)。
在控制台选择域名:
合法爬虫配置->Google、百度、搜狗、360、Bing、Yandex爬虫白名单选项,开启or关闭。
威胁情报->扫描器恶意指纹库→恶意扫描ip情报库
->IDC ip库阿里云
→IDC ip库 腾讯云,开启or关闭。
→IDC ip库其他、世纪互联
->撞库IP情报库
->伪造白名单蜘蛛情报库
->恶意爬虫情报库
扫描工具ua
扫描器恶意指纹库 | 常见扫描器的特征库。 |
恶意扫描IP情报库 | 基于全网实时检测到的恶意扫描行为攻击源IP进行分析,得到的动态IP情报库。 |
撞库IP情报库 | 基于全网实时检测到的撞库、暴力破解行为攻击源IP进行分析,得到的动态IP情报库。 |
模仿google bing爬虫程序,爬虫的日志收集。
伪造蜘蛛情报库 | 识别爬虫程序伪造合法搜索引擎的user-agent(如BaiduSpider)来逃避检测的行为。 注意 开启该名单之前,请确保已经放行合法爬虫白名单,否则可能导致误拦截。 |
web防火墙识别出恶意爬虫后,error log落地供下次使用。
恶意爬虫情报库 | 基全网实时检测到的爬虫行为攻击源IP进行分析,得出的动态IP情报库。 该名单库有低级、中级、高级三个等级。级别越高,对应的情报库内IP数量越多,相应的误判概率更大。 建议您对高级情报库规则设置二次校验(使用滑块验证、JS校验等处置动作);对不适用于二次校验的场景(如API等)配置低级别的情报库规则。 |
合作方式获取idc ip
IDC情报库 | 相关公有云或IDC机房的IP库,包括:阿里云、腾讯云、世纪互联、其他。这些IP段往往被爬虫用于部署爬虫程序或用作代理,而不会被正常用户使用。 |
爬虫特点:
模仿真人行为
加载 JavaScript 和外部资源
模拟cookie和 useragent
浏览器自动化操作
变化的IP地址池