使用selenium遇到网页反爬虫

在爬取马蜂窝南京景点评论时遇到521状态码的问题,通过在middlewares.py的ScrapMfwDownloaderMiddleware中添加ChromeOptions,排除enable-automation开关并禁用BlinkFeatures=AutomationControlled,可以避免反爬虫机制,成功进行网页爬取。
摘要由CSDN通过智能技术生成

在爬取马蜂窝南京景点的评论时,模拟浏览器点进景点后发现页面是空白,状态代码是521,即网页反爬虫了。

 解决办法:

middlewares.py文件中class ScrapMfwDownloaderMiddleware中的def __init__(self)方法应该写成

option = ChromeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation']) 
option.add_argument("--disable-blink-features=AutomationControlled")
# 以上是新添加的!加上去之后状态代码就不是521了!就不反爬虫了!
self.driver = webdriver.Chrome(options=option)

还需要添加包:

from selenium.webdriver import ChromeOptions

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值