Selenium自动化程序被检测为爬虫，怎么屏蔽和绕过

最新推荐文章于 2023-12-29 16:52:04 发布

测试界的吴彦祖

最新推荐文章于 2023-12-29 16:52:04 发布

阅读量1.5k

点赞数

分类专栏：软件测试自动化测试经验分享文章标签：爬虫 selenium 自动化测试测试工程师职场和发展

本文链接：https://blog.csdn.net/myh919/article/details/131195103

版权

自动化测试同时被 3 个专栏收录

1293 篇文章 28 订阅

订阅专栏

经验分享

1219 篇文章 11 订阅

订阅专栏

软件测试

682 篇文章 3 订阅

订阅专栏

Selenium 操作被屏蔽

使用selenium自动化网页时，有一定的概率会被目标网站识别，一旦被检测到，目标网站会拦截该客户端做出的网页操作。

比如淘宝和大众点评的登录页，当手工打开浏览器，输入用户名和密码时，是能正常进入首页的，但是如果是通过selenium打开，会直接提示验证失败，点击框体重试。

本文介绍一种办法，不需要修改浏览器属性，不需要注入JavaScript脚本，也能轻松绕过网站检测。

Selenium为何会被检测

每一个浏览器访问网站时，都会带上特定的指纹特征，网站会解析这些特征，从而判断这次访问是不是自动化程序。

一个最广为人知的特征是window.navigator.webdriver，该特征直接标明此浏览器是webdriver程序。当一个浏览器通过selenium启动后，在开发者工具中输入这个属性，会发现被标为 true，而手工打开的浏览器是 false。

实际上，浏览器被检测为webdriver程序的特征并不止这一个，这意味着，就算你通过修改属性，也不一定能绕过网站的检测。

我们可以通过 sannysoft 来检测浏览器指纹，如果浏览器是通过selenium等自动化程序打开的，访问这个网址后会有很多特征暴露这些指纹，这些特征的值和手工打开后的值是不一样的，因此可以很轻易被别人检测出来。

有人也试图不用selenium，换成puppeter和playwright这样的自动化工具，但是结局都是一样的。

Selenium避免被检测方法

浏览器在启动时就会带上指纹特征，如果使用自动化程序启动时已经被标记，那为什么不直接用手工启动，然后用Selenium连接已经启动的浏览器呢？

那手工打开浏览器要做什么操作才能让Selenium连接呢？Selenium又是怎样连接手工打开的浏览器呢？概括起来：

1、打开浏览器时添加以下参数：

--remote-debugging-port=9222 --user-data-dir="C:\\selenium\\ChromeProfile"

2、selenium中设置浏览器选项，通过上面设置的 9222端口连接浏览器：

from selenium.webdriver.chrome.options import Options

chrome_options = Options()
chrome_options.add_experimental_option("debuggerAddress", "127.0.0.1:9222")
driver = webdriver.Chrome(options=chrome_options)

通过 subprocess 运行浏览器

当然，做自动化程序一般不会手工点击图标来打开浏览器，我们可以用命令行启动浏览器，然后再用 selenium 连接。

import subprocess
cmd = '"C:\\Program Files (x86)\\Google\\Chrome\\Application\\chrome.exe" ' \\
'--remote-debugging-port=9222 ' \\
'--user-data-dir="C:\\selenium\\ChromeProfile"'

subprocess.run(cmd)

END配套学习资源分享

最后： 为了回馈铁杆粉丝们，我给大家整理了完整的软件测试视频学习教程，朋友们如果需要可以自行免费领取 【保证100%免费】

软件测试面试文档

我们学习必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有字节大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

在这里插入图片描述

全套资料获取方式：

测试界的吴彦祖

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Selenium自动化程序被检测为爬虫，怎么屏蔽和绕过

Selenium 操作被屏蔽，使用selenium自动化网页时，有一定的概率会被目标网站识别，一旦被检测到，目标网站会拦截该客户端做出的网页操作。比如淘宝和大众点评的登录页，当手工打开浏览器，输入用户名和密码时，是能正常进入首页的，但是如果是通过selenium打开，会直接提示验证失败，点击框体重试。
复制链接

扫一扫

专栏目录