使用selenium遇到网页反爬虫

最新推荐文章于 2025-06-11 11:38:28 发布

Madam G

最新推荐文章于 2025-06-11 11:38:28 发布

阅读量1k

点赞数 1

CC 4.0 BY-SA版权

文章标签：爬虫 selenium python

本文链接：https://blog.csdn.net/JoeySnow/article/details/130166902

在爬取马蜂窝南京景点评论时遇到521状态码的问题，通过在middlewares.py的ScrapMfwDownloaderMiddleware中添加ChromeOptions，排除enable-automation开关并禁用BlinkFeatures=AutomationControlled，可以避免反爬虫机制，成功进行网页爬取。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在爬取马蜂窝南京景点的评论时，模拟浏览器点进景点后发现页面是空白，状态代码是521，即网页反爬虫了。

解决办法：

middlewares.py文件中class ScrapMfwDownloaderMiddleware中的def __init__(self)方法应该写成

option = ChromeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation']) 
option.add_argument("--disable-blink-features=AutomationControlled")
# 以上是新添加的！加上去之后状态代码就不是521了！就不反爬虫了！
self.driver = webdriver.Chrome(options=option)

还需要添加包：

from selenium.webdriver import ChromeOptions

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Madam G

关注关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Selenium被检测为爬虫，怎么屏蔽和绕过

分享软件测试技术和学习方法

03-19

2万+

Selenium 操作被屏蔽使用selenium自动化网页时，有一定的概率会被目标网站识别，一旦被检测到，目标网站会拦截该客户端做出的网页操作。比如淘宝和大众点评的登录页，当手工打开浏览器，输入用户名和密码时，是能正常进入首页的，但是如果是通过selenium打开，会直接提示验证失败，点击框体重试。本文介绍一种办法，不需要修改浏览器属性，不需要注入JavaScript脚本，也能轻松绕过网站检测。 Selenium为何会被检测每一个浏览器访问网站时，都会带上特定的指纹特征，网站会解析这些特征，从而

100天精通Python（爬虫篇）——第121天：基于selenium实现代码输入账号信息登录网站（反反爬策略）

最新发布

weixin_44617651的博客

06-11

1718

当我们爬取大站的时候，就得需要对抗反爬虫机制的场景，因为项目要求使用Java和Selenium。Selenium通常用于模拟用户操作，但效率较低，所以需要我们结合其他技术来实现高效。

selenium的driver.get（url）获取到目标网址的页面是空的且控制台反回521错误，但是url为百度地址时又可以显示（已解决）

yanglq_的博客

05-30

1240

这说明网站被反爬了，网站识别webdriver的属性，判断是一个爬虫所以服务器拒绝处理，返回521（），一般5开头的错误属于服务器处理错误。看一下源码，源码打开百度网站是可以的，但是打开目标网站，网站是空白的。我们把webdriver的特征做一个隐藏。

selenium之反反爬虫

qq_36973540的博客

08-04

4467

大多数情况下，检测的基本原理是检测当前浏览器窗口下的 window.navigator 对象是否包含 webdriver 这个属性。在正常使用浏览器的情况下，这个属性是 undefined，然后一旦我们使用了 selenium，这个属性就被初始化为 true，很多网站就通过 Javascript 判断这个属性实现简单的反 selenium爬虫。反反爬虫解决措施： from selenium import webdriver from selenium.webdriver.chrome.options im

Python爬虫之数据提取-selenium的其它使用方法

不一样的花朵的博客

09-12

844

selenium的其它使用方法知识点：掌握 selenium控制标签页的切换掌握 selenium控制iframe的切换掌握利用selenium获取cookie的方法掌握手动实现页面等待掌握 selenium控制浏览器执行js代码的方法掌握 selenium开启无界面模式了解 selenium使用代理ip 了解 selenium替换user-agent 1. selenium标签页的切换当selenium控制浏览器打开多个标签页时，如何控制浏览器在不同的标签页中进行切换呢？需要

python遇到天猫反爬虫_selenium 淘宝登入反爬虫解决方案（亲测有效）

weixin_39743722的博客

12-06

2743

前言目前在对淘宝进行数据爬取的时候都会碰到，登入时的滑块问题，无论是手动还是脚本都不成功。这里的很重要一个原因是很多的网站都对selenium做了反爬虫机制。接下来是笔者参考网上的网友们的方法亲自测试的一个方法，希望可以帮助到大家。注意这里使用的浏览器是Chrome。所以使用的驱动也是chromedriver一，淘宝反扒js在淘宝登入页面加载的js中，可以看到怎么一行代码，如下图：上图的这一行代码...

selenium 遇到反爬虫的处理方法

05-14

当使用 Selenium 抓取网页时，确实可能面临一些反爬虫机制带来的挑战。以下是针对常见反爬虫技术的一些方法和策略： #### 1. 隐藏自动化浏览器特征许多网站通过检测特定的标志位（如 `navigator.webdriver` 或其他...

selenium 反爬虫之跳过淘宝滑块验证功能的实现代码.zip

06-16

在使用Web自动化测试工具Selenium进行网络爬虫时，经常会遇到网站的反爬虫机制，例如淘宝的滑块验证功能。这个验证机制主要是为了防止恶意爬虫程序对网站数据的过度抓取。本文将深入探讨如何利用Selenium规避淘宝...

爬虫入门基础与Selenium反爬虫策略

这家伙很懒，什么都没有留下

09-20

3035

爬虫（Web Crawler）是一种自动化的网页抓取工具，它按照一定的规则和算法，遍历互联网上的网页，将网页数据保存到本地，以供后续分析和处理。爬虫可以用于很多不同的领域，例如搜索引擎、数据挖掘、竞争情报、价格监测等等。Selenium是一种自动化测试工具，它支持多种浏览器和操作系统，可以模拟真实的用户操作，如点击、输入、滚动页面等等。Selenium广泛应用于Web应用程序的测试和调试，它可以自动化测试流程，提高测试效率和准确度。Selenium作为一种自动化测试工具，在数据抓取方面也具有非常实用的价值。

反爬虫策略反爬虫手段

01-06

反爬虫策略和手段正所谓魔高一尺道高一丈 robots协议 反爬虫策略反反爬虫策略

详解Selenium-webdriver绕开反爬虫机制的4种方法

01-19

之前爬美团外卖后台的时候出现的问题，各种方式拖动验证码都无法成功，包括直接控制拉动，模拟人工轨迹的随机拖动都失败了，最后发现只要用chrome driver打开页面，哪怕手动登录也不可以，猜测driver肯定是直接被识别出来了。一开始尝试了改user agent等方式，仍然不行，由于其他项目就搁置了。今天爬淘宝生意参谋又出现这个问题，经百度才知道原来chrome driver的变量有一个特征码，网站可以直接根据特征码判断，经百度发现有4种方法可以解决，记录一下自己做的尝试。 1、mitproxy拦截请求 √ 本质上就是在响应中利用mitproxy将包含的webdriver的JS中的关键字替换成

详解selenium + chromedriver 被反爬的解决方法

12-16

问题背景：这个问题是在爬取某夕夕商城遇到的问题，原本的方案是用selenium + chromedriver + mitmproxy开心的刷，但是几天之后，发现刷不出来了，会直接跳转到登陆界面（很明显，是遭遇反爬了）讲实话，这还是第一次用硒被反爬的，于是进行大规模的测试对比。同台机器，用铬浏览器正常访问是不用跳转到登陆界面的，所以不是IP的问题。再用提琴手抓包对比了一下两个请求头，请求头都是一样的，所以忽略标头的反爬。最后通过分析，可能是硒被检测出来了。于是就去查资料。大概的查到是和webdriver的有关系的。因为这个在服务端是可以检测到的。于是通过fiddler抓包，全局搜索了一下w

Selenium反反爬

riwanba的博客

07-19

3379

实际上，我们使用默认的方式初始化 WebDriver 打开一个网站，下面这段 JS 代码永远为 true，而手动打开目标网站的话，则为：undefined。# 通过这段 JS 脚本区分是爬虫还是人工操作 window.navigator.webdriver。window.navigator.webdriver 的值为 undefined 即可。有时候，我们利用 Selenium 自动化爬取某些网站时，极有可能会遭遇反爬。cdp 全称是：Chrome Devtools-Protocol。

反反爬虫(0) ：还在用 selenium 裸爬吗? 你已经被盯上了！破解WebDriver反爬虫

zzzzls 的博客

11-29

3万+

使用 Selenium 调用 ChromeSriver 来打开网页，还是与正常打开网页有一定的区别的。现在很多网站都加上了对 Selenium 的检测，来防止一些爬虫的恶意爬取。大多数情况下，检测的基本原理是检测当前浏览器窗口下的 `window.navigator` 对象是否包含 `webdriver` 这个属性。

使用selenium库做基本的反反爬虫，这都不会还说会爬虫？

爬遍所有网站

10-27

1170

现在很多网站为防止爬虫，加载的数据都使用js的方式加载，如果使用python的request库爬取的话就爬不到数据，selenium库能模拟打开浏览器，浏览器打开网页并加载js数据后，再获取数据，这样就达到反反爬虫，selenium的功能不止这一个，还能做很多，比如定位到某一个标签（可根据classname、id、html标签等），点击，上滑，js语句操作等等操作。首先下载chrome驱动：http://npm.taobao.org/mirrors/chromedriver/ 如果chrome的版本和

移除Selenium中的 window.navigator.webdriver，防止反爬

Defiler_Lee的博客

11-15

918

直接正文 Selenium 中添加如下代码： from selenium import webdriver options = webdriver.ChromeOptions() options.add_experimental_option("excludeSwitches", ["enable-automation"]) options.add_experimental_option('useAutomationExtension', False) driver = webdriver.Chrom

爬虫和反爬虫的斗争

weixin_44722998的博客

02-22

359

selenium的使用爬虫和反爬虫的斗争爬虫建议 • 尽量减少请求次数 • 保存获取到的HTML，供查错和重复使用 • 关注网站的所有类型的页面 • H5页面 • APP • 多伪装 • 代理IP • 随机请求头 • 利用多线程分布式 • 在不被发现的情况下我们尽可能的提高速度 ajax基本介绍动态了解HTML技术 • JS • 是网络上最常用的脚本语言,它可以收集用户的跟踪数据,不需要重载页面直接提交表单,在页面嵌入多媒体文件,甚至运行网页 • jQuery • jQuery是一个快速、简介的Ja