selenium初级使用

最新推荐文章于 2025-04-13 20:40:56 发布

✎ℳ๓演绎生命的云彩～

最新推荐文章于 2025-04-13 20:40:56 发布

阅读量984

点赞数 20

文章标签： selenium python 测试工具

本文链接：https://blog.csdn.net/qq_52624850/article/details/137688288

版权

本文介绍了如何使用Python的Selenium库，通过ChromeDriver启动无头模式的Chrome浏览器，禁用Blink引擎的AutomationControlled特性，以实现更隐蔽的网页抓取。代码展示了从指定ChromeDriver路径、设置选项到获取并打印页面HTML代码的完整过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

首先导包

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options

指定的ChromeDriver 的可执行文件路径，告诉 Selenium 从何处启动这个服务（也即 ChromeDriver）。

service = Service(executable_path=r"C:\Program Files\Google\Chrome\Application\chromedriver.exe")

添加了一个启动参数，这个参数可以禁用特定的 Blink 引擎功能，Blink 是 Chrome 使用的渲染引擎。这里禁用的 AutomationControlled 特性可以帮助避免网站检测到你使用了自动化工具，从而让你的爬虫更难被识别。

opt = Options()
opt.add_argument('--disable-blink-features=AutomationControlled')

访问网页的url地址

url = 'https://www.baidu.com/'

这行代码初始化了一个 Chrome 浏览器实例。这里的 options 和 service 参数分别是你之前定义的 Chrome 启动选项和 ChromeDriver 服务。简单来说，这行代码实质上就是开启了一个（无头模式的）Chrome浏览器。

browser = webdriver.Chrome(options=opt, service=service)

这行代码让浏览器访问你指定的 url。get() 方法会阻塞执行，直到整个网页（包括相关的所有 Ajax 请求、图片等资源）都加载完成，或者超时（默认超时时间可以在创建 webdriver 对象时通过 timeout 参数来设定）

browser.get(url)

这行代码获取当前浏览器中的网页HTML代码。这个 HTML 代码是在 JavaScript 执行完成后的最终代码，所以它能包含 JavaScipt 生成的一些动态内容。

page_text = browser.page_source

打印输出获得的HTML代码

print(page_text)

最后右键运行即可