无头浏览器Selenium的使用要点

最新推荐文章于 2024-05-07 02:23:33 发布

bug清理工

最新推荐文章于 2024-05-07 02:23:33 发布

阅读量524

点赞数

分类专栏：数据采集爬虫代理

本文链接：https://blog.csdn.net/ssbt_2020/article/details/118532040

版权

1、无头浏览器(headless browser)是什么
无头浏览器是指可以在图形界面情况下运行的，可以模拟多种浏览器的运行框架。研发可以通过编程来控制该框架执行各种任务，模拟真实的浏览器操作和各种任务，例如登录、js解析、ajax动态生成、获取cookie等。
2、无头浏览器适合的场景
无头浏览器的框架需要真实运行浏览器，因此系统开销大，采集运行速度慢，相对与一般的爬虫程序，其运行环境要求搭建的工具和库较多，因此如果目标网站反爬不是很难，可以直接通过简单的http请求进行采集，不适合使用无头浏览器方案。
当目标网站有多种验证机制，例如需要验证登录、ajax动生成、js反爬策略，如果研发不能进行网站行为分析的情况下，建议使用无头浏览器伪装正常用户，同时配合使用爬虫代理加强版进行数据采集。
3、无头浏览器框架推荐
无头浏览器有很多，我们推荐如下：
selenium+chrome+chrome driver+爬虫代理加强版
4、下面示例包括各种安装说明及代码
（1）下载chrome对应版本的chrome deriver
下载chrome https://www.google.com/chrome/
下载对应版本 driver https://chromedriver.chromium.org/downloads
注意chrome的版本和deriver的版本一定需要一致，可以查看具体的帮助说明，如果不一致，即使程序能够运行，也会出现爬虫代理认证信息失败，需要弹窗要求手动输入认证信息的问题。
（2）设置开发者模式
如果浏览器正常运行下，navigator.webdriver的值应该是undefined或者false，如果为true目标网站能检测到selenium，设置为开发者模式，可以防止目标网站识别

from selenium.webdriver import ChromeOptions
option = ChromeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation'])#开启实验性功能
browser=webdriver.Chrome(options=option)

# 修改get方法
script = '''
Object.defineProperty(navigator, 'webdriver', {
get: () => undefined
})
'''
browser.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {"source": script})

（3）配合使用爬虫代理加强版
通过无头浏览器模拟用户操作，同时结合爬虫代理加强版实

最低0.47元/天解锁文章

bug清理工

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
无头浏览器Selenium的使用要点

1、无头浏览器(headless browser)是什么无头浏览器是指可以在图形界面情况下运行的，可以模拟多种浏览器的运行框架。研发可以通过编程来控制该框架执行各种任务，模拟真实的浏览器操作和各种任务，例如登录、js解析、ajax动态生成、获取cookie等。2、无头浏览器适合的场景无头浏览器的框架需要真实运行浏览器，因此系统开销大，采集运行速度慢，相对与一般的爬虫程序，其运行环境要求搭建的工具和库较多，因此如果目标网站反爬不是很难，可以直接通过简单的http请求进行采集，不适合使用无头浏览器方案。
复制链接

扫一扫

专栏目录