使用Puppeteer自动解答reCAPTCHA:分步指南

简介:在本指南中,我将探讨使用Puppeteer(一种为浏览器自动化设计的Node.js工具)在网页抓取和测试场景中自动解答reCAPTCHA。我的重点是`puppeteer-extra-plugin-stealth`插件的实际使用,来无缝流览并通过reCAPTCHA挑战。

注:在此处阅读该 [指南

了解Puppeter:Puppeter是用Node.js编写的浏览器自动化工具,提供在无标头模式下运行的独特功能,使其不易被检测到。这一功能对于网络抓取和自动测试至关重要,因为被识别为机器人程序可能会阻碍对网络资源的访问。

先决条件:首先,您需要一些组件:

  • 验证码解答服务,如2captcha.com
  • Puppeteer,核心自动化工具。
  • Puppeteer-extra,增强Puppeteer的包装器。
  • puppeteer-extra-plugin-stealth,掩盖自动化痕迹的附加组件。

安装:首先使用npm安装Puppeteer和上面提到的软件包:

npm i puppeteer puppeteer-extra puppeteer-extra-plugin-stealth

这为我们的自动化设置设定了基础。

配置扩展:下载并将其解压缩到项目目录中来配置验证码解析扩展。关键设置包括自动解答特定验证码类型和代理支持,可以在`/common/config.js`文件中调整。确保将recaptcha V2的`autoSolveRecaptchaV2`设置为true。

API密钥注意事项:将您的API密钥包含在配置文件中的引号中避免脚本错误。

此外,为了简化过程,在安装后禁用打开扩展的设置页面。可以通过删除/manifest.json文件中的特定行来完成,否则设置页面将自动打开。

"options_ui": {
    "page": "options/options.html",
    "open_in_tab": true
},

浏览器自动化设置:将stealth插件合并到Puppeteer的初始化中以隐藏自动化。这对于绕过网站可能采用的检测机制至关重要。

const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
const { executablePath } = require('puppeteer');

(async () => {
  const pathToExtension = require('path').join(__dirname, '2captcha-solver');
  puppeteer.use(StealthPlugin())
  const browser = await puppeteer.launch({
    headless: false,
    args: [
      `--disable-extensions-except=${pathToExtension}`,
      `--load-extension=${pathToExtension}`,
    ],
    executablePath: executablePath()
  });

  const [page] = await browser.pages()
})();

导航和解答验证码:使用Puppeteer的`page.goto()`函数,导航至带有验证码的页面。手动或自动触发验证码解答过程。在此示例中,我们等待'.captcha-solver'(验证码求解器)按钮出现然后单击它来手动启动该过程。

监控解答方案:通过'.captcha-solver'按钮的数据状态属性监控验证码解答的状态。属性从'就绪'变为'正在解答',最后变为'已解答',表示验证码解答成功了。

// go to the specified address
await page.goto('https://2captcha.com/demo/recaptcha-v2')

// wait until the element with the CSS selector ".captcha-solver" appears
await page.waitForSelector('.captcha-solver')
// click on the element with the specified selector
await page.click('.captcha-solver')

最终步骤:解答验证码后,在页面上执行必要的操作。在此示例中,我们单击'检查'按钮以验证已解答的验证码的正确性。

//  waitForSelector默认等待30秒,但这个时间通常不够,因此我们手动指定超时值作为第二个参数。超时值以“ms”为单位指定。
await page.waitForSelector(`.captcha-solver[data-state="solved"]`, {timeout: 180000})

# 现成文件下载:

为了方便起见,我提供了一个现成的文件,其中包括所有必要的配置。可以通过下方链接下载该文件。请记住,下载并解压此文件后,您需要将求解器文件夹(前面讨论过)添加到其中。此步骤确保所有组件都已就位,并且该设置已准备好可立即使用。

https://github.com/2captcha/2captcha-solver-in-puppeteer

总结:本指南演示了如何在Puppeteer中有效地自动化解答reCAPTCHA,从而为网页抓取和自动化测试场景中提供显著的优势。负责任且合乎道德地使用这些技术非常重要。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值