Selenium 屏蔽 webdriver被识别出来 的一些解决办法

问题描述

使用 selenium 模拟浏览器进行数据抓取是目前最通用的爬虫方案,所见即所得。通吃各种数据加载方式,能绕过JS加密、爬虫检测、签名机制。

但是Selenium依然能被检测到,它在运行时会暴露出一些预定义的JavaScript变量(特征字符串),如"window.navigator.webdriver",在非Selenium环境下为undefined,在Selenium环境下为true
在这里插入图片描述
检测Selenium
检测 Selenium 的 JavaScript 代码
webdriver = window.navigator.webdriver;

if (webdriver) {
    console.log('模拟浏览器')
} else {
    console.log('正常浏览器')
}

解决方案

1. 使用Firefox
Selenium文档称:

在使用Selenium时,避免被检测的最好方法是使用最新版本的Firefox,另外,Safari和Opera也值得一试。

显然,并不行。。。。我自己就用了火狐浏览器最新版本,不行
在这里插入图片描述
2.使用pyppeteer

import asyncio
from pyppeteer import launch
from pyppeteer import launcher

launcher.DEFAULT_ARGS.remove("--enable-automation")


async def main():
    browser = await launch(headless=False)
    input()
    await browser.close()


asyncio.get_event_loop().run_until_complete(main())

在这里插入图片描述
3.Chrome开发工具协议

from selenium import webdriver

options = webdriver.ChromeOptions()
options.add_experimental_option('useAutomationExtension', False)
options.add_experimental_option('excludeSwitches', ['enable-automation'])
driver = webdriver.Chrome(chrome_options=options)
driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
    "source": """
    Object.defineProperty(navigator, 'webdriver', {
      get: () => undefined
    })
  """
})

Chrome 测试通过,但网站屏蔽仍存在
还出现屏蔽依旧存在是因为虽然webdriver:undefined,但是在后续的操作中webdriver里面的代码被识别了出来,但是放心,大部分网站都不会做到这么深,很少有网站会做识别后续操作的反爬虫,所以放心大胆的用
其实用这种办法大部分的网站都可以了,比如访问“企查查”就没问题。。。我已经测试了

在这里插入图片描述
88版的谷歌浏览器更新以后出现了问题好像这段代码已经无法正确隐藏window.navigator.webdriver了
解决方法很简单,只需要增加一个配置参数:chrome_options.add_argument("--disable-blink-features=AutomationControlled")就可以再次隐藏 window.navigator.webdriver ,你学废了吗。
在这里插入图片描述

runBotDetection = function () {
var documentDetectionKeys = [
“__webdriver_evaluate”,
“__selenium_evaluate”,
“__webdriver_script_function”,
“__webdriver_script_func”,
“__webdriver_script_fn”,
“__fxdriver_evaluate”,
“__driver_unwrapped”,
“__webdriver_unwrapped”,
“__driver_evaluate”,
“__selenium_unwrapped”,
“__fxdriver_unwrapped”,
];

方法是没什么问题的,只是对面做的防护太严谨了。这里可以使用接方法4继续

4.使用mitmproxy或fiddler做代码注入
使用方法就是ubuntu环境下使用mitmproxy代理服务器

#proxy.py
def response(flow):
    if 'webdriver' in flow.response.text:
        print('*' * 100)
        print('find web_driver key')
        flow.response.text = flow.response.text.replace("webdriver", "fuck_that_1")
    if 'Webdriver' in flow.response.text:
        print('*' * 100)
        print('find web_driver key')
        flow.response.text = flow.response.text.replace("Webdriver", "fuck_that_2")
    if 'WEBDRIVER' in flow.response.text:
        print('*' * 100)
        print('find web_driver key')
        flow.response.text = flow.response.text.replace("WEBDRIVER", "fuck_that_3")
//在上面py文件文件夹内终端运行
mitmdump -s proxys.py
from selenium import webdriver
from selenium.webdriver import ChromeOptions
from lxml import etree
import requests
import html
import re
 
option = webdriver.ChromeOptions()
PROXY = "127.0.0.1:8080"
option.add_argument('--proxy-server=%s'%PROXY)
option.add_experimental_option('excludeSwitches', ['enable-automation'])
#打开浏览器
brower = webdriver.Chrome(options = option)
#让浏览器对指定url发起访问
brower.get('https://maoyan.com/films/1190122')
 
#获取浏览器当前打开页面的页面源码数据(可见即可得)
page_text = brower.page_source
#print(page_text)
if "验证中心" in page_text:
    print("美团验证")
else:
    tree = etree.HTML(page_text)
    score = tree.xpath('//div[@class="movie-index-content score normal-score"]/span[1]/span[1]/text()')[0]
    ASCll = str(score)
    utfs = str(ASCll.encode('unicode_escape')).replace("b","").replace("'","").replace("\\\\u",";&#x").split('.')
    unicode = utfs[0][1:]+";."+utfs[1][1:]+";"
    print(unicode)

最后实现爬取。

  • 21
    点赞
  • 65
    收藏
    觉得还不错? 一键收藏
  • 10
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值