如何绕过PerimeterX（二）：关于PerimeterX中_px2和_px3的绕过思路

最新推荐文章于 2025-03-09 19:41:51 发布

dongjidao0705（vx）

最新推荐文章于 2025-03-09 19:41:51 发布

阅读量1.3k

点赞数

文章标签：算法

本文链接：https://blog.csdn.net/m0_57428073/article/details/131378733

版权

文章介绍了如何使用智能代理如ZenRows、强化的无头浏览器如Selenium和Puppeteer，以及API和验证码解决服务来规避PerimeterX的反机器人保护。还提到了利用Google缓存作为抓取内容的一种方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

书接上回；

方法#1：使用智能代理绕过 PerimeterX

您可以使用智能代理来处理反机器人挑战并返回必要的数据或会话 cookie 以访问您需要的内容。

目标是通过轮换住宅代理、随机化用户代理和模仿自然模式来模仿人类行为。这一切都在后端进行，因此不必担心编写长行代码。

与标准代理相比，智能代理提供更高级别的匿名性。因此，它们的流量大多与自然的人类流量没有区别。除其他因素外，这使它们成为绕过 PerimeterX 机器人检测系统的绝佳工具。

ZenRows是智能代理的一个示例，它使用户能够绕过 PerimeterX 和任何机器人检测系统。可以通过指定目标 URL 来模仿人类行为并解决反机器人挑战。

ZenRows 支持所有编程语言，包括 Python、Java、Node.js、Go、Ruby 等。以下是使用 Python 的快速示例：

# pip install requests
import requests

url = 'https://www.ssense.com/en-ca'
apikey = 'Your_API_Key'
params = {
    'url': url,
    'apikey': apikey,
	'antibot': 'true',
	'premium_proxy': 'true',
}
response = requests.get('https://api.zenrows.com/v1/', params=params)


print(response.text)
# ....<title>Luxury fashion &amp; independent designers | SSENSE Canada</title>...

方法#2：使用强化的无头浏览器
虽然无头浏览器最初是为测试而设计的，但它们已经发展成为重要的网络抓取工具。然而，它们具有自动化特征，使它们很容易被 PerimeterX 等反机器人系统识别。常见的比如：navigator.webdriver。

话虽这么说，最流行的无头浏览器，如 Selenium、Puppeteer 和 Playwright，都提供了可让您强化网络抓取工具的解决方案：

未检测到的 Selenium Chromedriver
Puppeteer 隐形插件，适用于 Puppeteer 和 Playwright。
多年来，虽然是开源的，但是这些工具已被证明很有用。这意味着他们可能无法跟上 PerimeterX 等不断发展的机器人管理系统。

但是，即使可以，仍然存在缺点。例如，它们消耗大量的 CPU、内存和带宽资源。所以，无头浏览将不可避免地导致抓取成本和性能问题。

尽管您可以采取阻止资源等措施来提高性能，但不加载它们也可能会将您标记为机器人。

方法 #3：使用 API 进行 PerimeterX 绕过
此时，您可能会想，“难道没有任何现有的可靠的 PerimeterX 其他方式？”。

残酷的现实是，到 2023 年，使用公共软件（例如您可以在 GitHub 上找到的库）很难绕过 PerimeterX 反机器人服务。然而，其中一些，例如Puppeteer Stealth，值得一试。

此外，基于 Chrome、Chromium、Firefox 或 Selenium 的标准无头浏览器需要非常具体的配置才能工作。此外，由于此类软件的源代码是公开的，PerimeterX 开发人员可以更新其反机器人系统来检测它。

一种选择是编写您自己的 PerimeterX 旁路代码，尽管最简单的方法是使用专为该工作设计的私有软件。ZenRows 就是一个可靠的例子。

方法#4：PerimeterX 验证码绕过
PerimeterX 可能会显示验证码作为您访问网站内容时必须通过的挑战的一部分。有时，仅在检测到可疑活动（例如请求过多）时才会显示它们。这为您提供了两种绕过它们的方法：

防止触发验证码。
当它们出现时解决它们。
第一种是推荐的方法，因为它在规模上更可靠并且便宜得多。强化的无头浏览器、智能代理等解决方案可以帮助您在雷达下飞行。

另一方面，当出现验证码时，您必须解决它们。这只能通过 2Captcha 等付费验证码解决服务来实现。他们雇用真人手动解决挑战并返回解决方案，使用服务的 API 执行。

方法#5：抓取 Google 缓存
当 Google 抓取网站进行索引时，它会缓存其页面。因此，我们可以浏览目标网站并直接向 Google 请求这些页面。但是，只有当您所追求的数据不定期更改时，此方法才可行。此外，由于并非所有网站都允许缓存，因此这可能不起作用。

要抓取网站的缓存数据，请向其 Google 缓存网址发送请求。通常遵循以下格式：

<https://webcache.googleusercontent.com/search?q=cache:{website_url}>

后续更新。。。。。