selenium绕过浏览器检测

 一、情景描述及原因说明

selenium是在自动化爬虫时候的一个强有力的工具,但是通常在自动化的时候它会被检测到是一个爬虫程序,从而对用户操作进行限制。

这里以Edge驱动为例,比如我们在登录的时候:如果是手动打开的网页,可以直接登录成功。但是如果是使用的selenium打开的,他会显示 Microsoft Edge 正由自动测试软件控制, 并且在我们输入用户信息之后显示请求参数异常。

浏览器的不同打开方式的指纹也有所不同,我们可以通过 关键字window.navigator.webdriver来进行查看。

查看方式:

1、打开开发者工具

2、点击控制台

3、直接输入window.navigator.webdriver并回车

返回结果有两种,

        undefined,说明是正常浏览器(chrome显示)

        false            说明是正常浏览器(Edge显示)

        True             说明已经被检测到了是selenium

 

 解决方式一:使用第三方库

undetected_chromedriver是专门针对浏览器被识别作出来的库

优点:根据浏览器版本自动下载驱动

下载:pip install undetected_chromedriver -i https://pypi.tuna.tsinghua.edu.cn/simp le

导入:import undetected_chromedriver as uc

代码展示:

import undetected_chromedriver as uc


driver = uc.Chrome()
driver.get("https://www.zhihu.com/")
time.sleep(10)

 效果展示:登录成功

解决方式二 :使用stealth.min.js文件防止selenium被检测

import time
from selenium import webdriver

# 设置浏览选项
option = webdriver.EdgeOptions()
option.add_experimental_option("detach", True)
option.add_experimental_option("excludeSwitches", ["enable-automation"])
option.add_experimental_option("useAutomationExtension",False)
option.add_argument("User-Agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36 Edg/118.0.2088.46")
# 实例化浏览器驱动对象,并将配置浏览器选项
driver = webdriver.Edge(options=option)

# 2. 使用stealth.min.js文件防止selenium被检测
with open("E:\操作小手册\stealth.min.js") as f:
    js = f.read()
value1 = "Page.addScriptToEvaluateOnNewDocument"
value2 = {"source": js}
driver.execute_cdp_cmd(value1, value2)

url = "https://www.zhihu.com/"
driver.get(url=url)
time.sleep(10)

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值