Selenium——谷歌无头浏览器和预防检测

最新推荐文章于 2024-06-11 17:30:39 发布

Lion_H

最新推荐文章于 2024-06-11 17:30:39 发布

阅读量1.2k

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/qq_38869493/article/details/108492125

版权

python 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

1：正常情况下使用selenium爬取数据

from selenium import webdriver


bro = webdriver.Chrome('./chromedriver.exe')
bro.get('https://www.baidu.com')
page_text = bro.page_source
print(page_text)

2：使用Options类来进行取界面化

from selenium.webdriver.chrome.options import Options
```
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')

bro = webdriver.Chrome('./chromedriver.exe', chrome_options=chrome_options)
```
在头信息中通过上述代码引入Options类，然后在代码中实例化Options类，并且在实例化浏览器驱动程序的时候，引入参数chrome_options，进而实现无界面化的操作

3：整体代码

# 无头浏览器的使用

from selenium import webdriver
# 首先导入一个options的包，用来实现无头浏览器
from selenium.webdriver.chrome.options import Options

chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')

bro = webdriver.Chrome('./chromedriver.exe', chrome_options=chrome_options)
bro.get('https://www.baidu.com')
page_text = bro.page_source
print(page_text)

4：预防检测

在使用selenium爬取数据时，有些网站会监测此请求是否是selenium发起，此时我们反反爬机制来进行伪装，进而规避检测。

先引入options类from selenium.webdriver import ChromeOptions
在代码块中添加如下语句

option = ChromeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation'])

在初始化浏览器驱动的时候传入options参数，之后进行正常运行即可，如下所示

bro = webdriver.Chrome('./chromedriver.exe', chrome_options=chrome_options,options=option)

5：整体代码如下

# 无头浏览器的使用

from selenium import webdriver
# 首先导入一个options的包,实现无头浏览器
from selenium.webdriver.chrome.options import Options
# 用来规避检测
from selenium.webdriver import ChromeOptions

chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')

option = ChromeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation'])

bro = webdriver.Chrome('./chromedriver.exe', chrome_options=chrome_options,options=option)
bro.get('https://www.baidu.com')
page_text = bro.page_source
print(page_text)

Lion_H

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Selenium——谷歌无头浏览器和预防检测

1：正常情况下使用selenium爬取数据from selenium import webdriverbro = webdriver.Chrome('./chromedriver.exe')bro.get('https://www.baidu.com')page_text = bro.page_sourceprint(page_text)2：使用Options类来进行取界面化 from selenium.webdriver.chrome.options import Option
复制链接

扫一扫