我们在使用Selenium Puppeteer playwright chromedriver等自动化框架驱动chromium内核浏览器跑自动化任务时,如果目标网站部署了cloudflare recaptcha 等人机验证系统,就会被人机验证拦下来。
最简单的人机检测是通过webdriver来检测,绕过很容易,我们不再赘述。
而cloudflare reCAPTCHA等一线厂商,通过获取 js runtime 中的信息提取,能够精准定位浏览器是否存在 cdp 连接,笔者亲身实践:绕过这项检测难度非常大,但经过不懈尝试,笔者最终成功绕过上述一线厂商的检测:
1.借用UC(Undetected-chromedriver)能力:
Cloudflare和很多其他网站一样会检测访问是否为Selenium bot,其中一项为检测Selenium运行时出现的特有js变量。
# 这里主要包括了是否含有"selenium"/ "webdriver"的变量或者含有"$cdc_"/"$wdc_"的文件变量。
# 每个driver的检测机制会不一样,此处给出的方案基于chromedriver。
# 1. Undetected-chromedriver
# 非常简单好用的包,直接pip安装,如下初始化driver即可,之后就像正常Selenium使用即可。
import undetected_chromedriver as uc
driver = u