如何绕过PerimeterX(一):关于PerimeterX中_px2和_px3的绕过思路

你找到了你需要爬取的网站,设置了你的爬虫并启动了它,却悲哀地发现PerimeterX已经阻止了你。但不要陷入绝望! 在放弃爬取数据的目标之前,你可以尝试绕过PerimeterX。

PerimeterX是最早为网站提供安全服务的公司之一,它成立于2004年(比Cloudflare早6年!)。因此,当涉及到阻止机器人时,是目前最先进的反爬公司之一。

PerimeterX是如何工作的?

PerimeterX检测系统声称可以保护网站不受机器人的影响,同时对用户体验影响最小。换句话说,除非他们怀疑请求来自机器人,否则尽量不要用验证码解决或等待认证的屏幕来打扰人类用户。

为了实现这一目标,PerimeterX等先进的网络安全系统同时使用被动和主动机器人检测。被动式机器人检测是指一旦收到访问者的请求,就在其服务器上进行检查。主动式机器人检测是指它们在访问者的代理上运行脚本,以收集信息和检测机器人。

1.IP过滤
像PerimeterX这样的安全公司通常有大量已知被机器人使用的IP清单。他们还可以识别属于数据中心、代理机构或VPN供应商的IP群。网络应用防火墙(WAF)通常为试图访问受保护网站的每个IP分配一些分数或信誉。如果你的机器人使用的IP有一个坏的声誉,你可能会被阻止。

2.检查HTTP请求头
很多机器人使用库或其他非浏览器代理,如python-requests或Axios。这些代理通常不发送一些典型浏览器添加到其请求中的头信息。这是PerimeterX Bot Defender等反机器人系统用来识别和阻止机器人的最简单方法之一。幸运的是,在你的请求中添加HTTP头信息以绕过这种保护很容易。

3.行为分析
PerimeterX对其使用机器学习算法进行行为分析感到非常自豪,这使得它能够根据机器人的行为来识别机器人。例如,他们的系统已经了解到,在短时间内发出数百次请求的IP通常是机器人。当他们检测到这种类型的行为时,他们通常会阻止对受保护网页的访问。

4.指纹和黑名单
我们提到的一些方法,如行为分析或检查HTTP请求头,可以与其他方法相结合,如TLS指纹,以识别访客,即使他们使用不同的IP。一旦网络应用防火墙(WAF)将访问者识别为机器人,他们就会将其添加到黑名单中,以防止他们在未来的访问中进行访问。

如果在应用了绕过被动机器人防御系统的技术后,PerimeterX仍能检测到你,那么可能是它的主动机器人脚本在检测你的机器人。如果你准备创建一个PerimeterX验证码绕过,请准备好用一些混淆的Javascript代码和逆向工程策略来提高自己的成功率。

前期先写这么多,后续开始讲解如何绕过PerimeterX的思路。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值