selenium初级使用

本文介绍了如何使用Python的Selenium库,通过ChromeDriver启动无头模式的Chrome浏览器,禁用Blink引擎的AutomationControlled特性,以实现更隐蔽的网页抓取。代码展示了从指定ChromeDriver路径、设置选项到获取并打印页面HTML代码的完整过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

首先导包

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options

指定的ChromeDriver 的可执行文件路径,告诉 Selenium 从何处启动这个服务(也即 ChromeDriver)。

service = Service(executable_path=r"C:\Program Files\Google\Chrome\Application\chromedriver.exe")

添加了一个启动参数,这个参数可以禁用特定的 Blink 引擎功能,Blink 是 Chrome 使用的渲染引擎。这里禁用的 AutomationControlled 特性可以帮助避免网站检测到你使用了自动化工具,从而让你的爬虫更难被识别。

opt = Options()
opt.add_argument('--disable-blink-features=AutomationControlled')

访问网页的url地址

url = 'https://www.baidu.com/'

这行代码初始化了一个 Chrome 浏览器实例。这里的 options 和 service 参数分别是你之前定义的 Chrome 启动选项和 ChromeDriver 服务。简单来说,这行代码实质上就是开启了一个(无头模式的)Chrome浏览器。

browser = webdriver.Chrome(options=opt, service=service)

这行代码让浏览器访问你指定的 urlget() 方法会阻塞执行,直到整个网页(包括相关的所有 Ajax 请求、图片等资源)都加载完成,或者超时(默认超时时间可以在创建 webdriver 对象时通过 timeout 参数来设定)

browser.get(url)

这行代码获取当前浏览器中的网页HTML代码。这个 HTML 代码是在 JavaScript 执行完成后的最终代码,所以它能包含 JavaScipt 生成的一些动态内容。

page_text = browser.page_source

打印输出获得的HTML代码

print(page_text)

最后右键运行即可

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值