【0基础学爬虫】爬虫基础之自动化工具 Selenium 的使用

最新推荐文章于 2024-10-18 00:00:00 发布

野生的狒狒

最新推荐文章于 2024-10-18 00:00:00 发布

阅读量1.1k

点赞数 40

文章标签：爬虫自动化 selenium

本文链接：https://blog.csdn.net/Gefangenes/article/details/137776735

版权

本文介绍了自动化工具Selenium的基本使用，包括安装、元素查找、元素交互、等待、Actions和反检测。Selenium能模拟浏览器运行，方便地获取动态加载数据，避免了复杂的抓包和逆向分析。同时，文章还讨论了如何在Selenium中设置显式等待以提高效率，以及如何避免被网站检测。Selenium适用于处理需要用户交互和动态加载数据的网站爬取任务。

摘要由CSDN通过智能技术生成

目前，很多网站都采用 Ajax 等技术进行动态加载数据，想要采集这类网站的数据，需要通过抓包对网站的数据接口进行分析，去寻找想要采集的数据由哪个接口传输。而且，就算找到了数据接口，这些接口可能也是被加密过的，想要通过接口获取数据，需要对加密参数进行逆向分析，这个过程对于初学者来说非常复杂。

为了解决这些问题，能够更加简单的进行爬取数据，我们可以使用到一些自动化工具，如 Selenium、playwright、pyppeteer 等，这些工具可以模拟浏览器运行，直接获取到数据加载完成后的网页源码，这样我们就可以省去复杂的抓包、逆向流程，直接拿到数据。

Selenium 的使用#

介绍#

Selenium 是一个流行的自动化测试框架，可用于测试 Web 应用程序的用户界面。它支持多种编程语言，如Java、Python、Ruby等，并提供了一系列 API，可以直接操作浏览器进行测试。

安装#

使用 selenium 首先需要下载浏览器驱动文件，这里以谷歌浏览器为例。在驱动下载页面找到与自己浏览器版本最为接近的文件，如我的谷歌浏览器版本为 112.0.5615.86，最接近的文件为 112.0.5615.49，选择此文件，下载对应系统版本的压缩包，将压缩包中的chromedriver.exe程序放到python目录中。因为正常情况下Python在安装时就会被添加到系统环境变量之中，将chromedriver.exe放到Python目录下它就可以在任意位置被执行。

添加好驱动文件后需要安装 Python 的第三方库 selenium。

pip install selenium

使用#

Selenium 支持多种浏览器，如谷歌、火狐、Edge、Safari等，这里我们以谷歌浏览器为例。

from selenium import webdriver

# 初始化浏览器对象
driver = webdriver.Chrome()
# 驱动浏览器打开目标网址
driver.get('https://www.baidu.com/')
# 打印当前页面的源代码
print(driver.page_source)
# 关闭浏览器
driver.quit()

运行代码后我们会发现自动打开了一个浏览器，访问了目标网址，在控制台输出了页面的源代码，然后自动关闭。

Selenium 提供了一系列实用的 Api，通过它我们可以实现更多操作。