最完美方案！如何防止 Selenium 被检测出来

最新推荐文章于 2024-09-20 17:13:15 发布

VIP_CQCRE

最新推荐文章于 2024-09-20 17:13:15 发布

阅读量3w

点赞数 29

文章标签： python 编程语言 js chrome selenium

原文链接：https://docs.microsoft.com/zh-cn/learn/modules/resolve-merge-conflicts-github/?WT.mc_id=DT-MVP-5003916

版权

“

阅读本文大概需要 2 分钟。

”

在一篇公众号文章《别去送死了。Selenium 与 Puppeteer 能被网站探测的几十个特征》中，我们知道目前网上的反检测方法几乎都是掩耳盗铃，因为模拟浏览器有几十个特征可以被检测，仅仅隐藏 webdriver 这一个值是没有任何意义的。

今天我们就来说说应该如何正确解决这个问题。我们首先给出解决方案。然后再说明这个解决方案，我是通过什么方式找到的。

解决这个问题的关键，就是一个 js 文件，叫做stealth.min.js。稍后我会说明如何生成这个文件。

我们需要设定，让 Selenium 或者 Pyppeteer 在打开任何页面之前，先运行这个 Js 文件。具体的做法和原理，大家可以参考我这两篇文章：

（最新版）如何正确移除Selenium中的 window.navigator.webdriver

（最新版）如何正确移除 Pyppeteer 中的window.navigator.webdriver

这里，我以 Selenium 为例来说明如何操作，我们编写如下代码：

import time
from selenium.webdriver import Chrome
from selenium.webdriver.chrome.options import Options

chrome_options = Options()
chrome_options.add_argument("--headless")
chrome_options.add_argument('user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36')

driver = Chrome('./chromedriver', options=chrome_options)

with open('/Users/kingname/test_pyppeteer/stealth.min.js') as f:
    js = f.read()

driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
  "source": js
})
driver.get('https://bot.sannysoft.com/')
time.sleep(5)
driver.save_screenshot('walkaround.png')

# 你可以保存源代码为 html 再双击打开，查看完整结果
source = driver.page_source
with open('result.html', 'w') as f:
    f.write(source)

运行截图如下：

可以看到，虽然我使用的是无头模式，但是能够被识别的特征都被成功隐藏。大家还可以双击打开保存下来的 html 文件，看看是不是结果跟普通浏览器几乎一样。

如果你使用的是 Pyppeteer，那么可以根据我上面文章中给出的方法，试着加载一下这个 js 文件，看看是不是也能成功隐藏特征。

那么，这个stealth.min.js文件是怎么来的呢？这就要说到puppeteer了。我们知道，Python 版本的pyppeteer已经很久没有人维护了，但是Node.js 版本的 puppeteer持续有人维护，并且在持续更新，生态也越来越好。

有开发者给 puppeteer 写了一套插件，叫做puppeteer-extra。其中，就有一个插件叫做puppeteer-extra-plugin-stealth^[1]。这个东西，就来专门用来让 puppeteer 隐藏模拟浏览器的指纹特征。

这个东西是专门给 puppeteer 用的。所以，如果你使用的是 puppeteer，那么你可以根据它的 Readme说明，直接使用。

那么，我们用 Python 的人怎么办呢？实际上也有办法。就是把其中的隐藏特征的脚本提取出来，做成一个单独的 js 文件。然后让 Selenium 或者 Pyppeteer 在打开任意网页之前，先运行一下这个 js 文件里面的内容。

puppeteer-extra-plugin-stealth的作者还写了另外一个工具，叫做extract-stealth-evasions^[2]。这个东西就是用来生成stealth.min.js文件的。

如果你在国外，并且网速足够快的话。那么你根据它的 Readme，首先安装 Node.js，然后安装 Npm，接着运行如下命令：

npx extract-stealth-evasions

就会在你执行命令的文件夹下面生成一个stealth.min.js文件。然后你就可以正常使用了。

如果你在国内，那么执行这个命令的过程中，会有一个下载 Chromium 的过程，速度非常慢，虽然只有130MB，但是可能会下载好几个小时。

此时，你需要把它的package.json和index.js两个文件保存到本地。然后打开package.json文件，修改其中的dependencies这一项，把里面的puppeteer改成puppeteer-core，如下图所示：

然后修改index.js，给.launch()函数增加一个参数executablePath，指向你电脑上的 Chrome 浏览器，如下图所示：

修改完成以后。首先执行yarn install安装依赖包。然后执行node index.js运行程序。1秒钟以后就会生成stealth.min.js了。

如果你对 Node.js 的工具链不熟悉，不知道如何使用。那么你可以关注公众号未闻 Code，回复stealth获取这个 js 文件。

参考资料

[1]

puppeteer-extra-plugin-stealth: https://github.com/berstend/puppeteer-extra/tree/master/packages/puppeteer-extra-plugin-stealth

[2]

extract-stealth-evasions: https://github.com/berstend/puppeteer-extra/tree/master/packages/extract-stealth-evasions

推荐阅读

1

因为"扫一扫"功能，支付宝竟被起诉了！

2

5 款最佳最牛代码比较神器

3

微信第 1 行代码曝光！

4

微软最强 Python 自动化工具开源了！不用写一行代码！

好文和朋友一起看~

关注

29
点赞
踩
251

收藏

觉得还不错? 一键收藏
17
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 17

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。