Python爬虫与Selenium：简单使用

拾光574

已于 2023-12-27 19:40:50 修改

阅读量1.4k

点赞数 17

文章标签： python 爬虫 selenium

于 2023-12-27 19:33:32 首次发布

本文链接：https://blog.csdn.net/qq_74538234/article/details/135248667

版权

文章目录

前言
一、Python爬虫与Selenium简介
二、Python爬虫与Selenium环境搭建
三、Python爬虫与Selenium的基本使用
- 1. seleium爬虫的基本使用
- 2. seleium的元素交互
四、全部代码
五、Python爬虫与Selenium的注意事项和法律法规
总结：Python爬虫与Selenium的前景和未来发展

前言

随着互联网的快速发展，数据已经成为人们生活中不可或缺的一部分。而如何有效地获取这些数据，成为了许多企业和个人关注的焦点。Python作为一种强大的编程语言，因其易学易用、功能强大等特点，成为了数据获取的首选工具。而Selenium作为一种自动化测试工具，可以模拟真实用户操作，如点击、输入等，使得数据抓取更加稳定和可靠。本文将介绍Python爬虫与Selenium的基本概念、环境搭建、基本使用、进阶使用以及注意事项，帮助读者全面了解Python爬虫与Selenium的使用方法和应用场景。

一、Python爬虫与Selenium简介

1.Python爬虫简介

Python爬虫是一种利用Python编程语言编写的自动化程序，能够从互联网上抓取数据。通过模拟真实用户访问网页的行为，Python爬虫可以轻松地获取网页上的数据。而Selenium作为一种自动化测试工具，可以模拟真实用户操作，如点击、输入等，使得数据抓取更加稳定和可靠。Python爬虫与Selenium的结合，使得数据抓取更加高效和稳定。

2. Selenium简介

Selenium是一种自动化测试工具，用于模拟真实用户操作，如点击、输入等，以便进行数据抓取。它提供了WebDriver接口，可以与多种浏览器兼容，包括Chrome、Firefox、Safari等。

Selenium的主要特点是稳定性和可靠性。由于它模拟真实用户操作，因此可以更好地处理动态网页和JavaScript渲染的内容。同时，Selenium还提供了丰富的断言和验证功能，使得数据抓取更加准确可靠。

3.Python爬虫与Selenium的结合

Python爬虫与Selenium的结合使用可以实现更加高效和稳定的数据抓取。通过使用Selenium，Python爬虫可以模拟真实用户操作，触发JavaScript渲染的页面内容，并处理登录状态保持等复杂操作。同时，Selenium的稳定性使得数据抓取更加可靠，避免了因网页结构变化或反爬虫机制导致的抓取失败。

这种结合方式在处理动态网页、需要模拟登录等复杂场景时非常有效。它能够提高数据抓取的效率和准确性，为数据分析、数据挖掘等领域提供更加丰富和准确的数据源。

二、Python爬虫与Selenium环境搭建

1. Python环境搭建

首先，您需要安装Python。可以从Python官网下载并安装最新版本的Python。在安装过程中，可以选择自定义安装，并确保勾选“Add Python to PATH”选项，以便在命令行中轻松访问Python。

2. Selenium环境搭建

接下来，我们需要安装Selenium库。可以使用pip命令在命令行中安装Selenium：

pip install selenium

如果下载很慢，我们可以使用清华镜像

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple selenium

3. 安装ChromeDriver

为了使用Selenium与Chrome浏览器进行集成，我们需要安装ChromeDriver。ChromeDriver是一个独立的可执行文件，用于控制Chrome浏览器。
点击谷歌浏览器右上角三个点，找到帮助，关于 Google Chrome，查看谷歌浏览器的版本。点击进入下载网站，找到和自己浏览器版本相同的驱动，下载后解压，把文件内的驱动程序，放入自己python路径的Scripts文件下，如我的是H:\python3.11.2\Scripts。anconda文件下应该也有Scripts文件下。图中名字是chromedriver.exe的就是驱动。

在这里插入图片描述

三、Python爬虫与Selenium的基本使用

1. seleium爬虫的基本使用

下面是一个简单的selenium应用，我们使用百度作为测试网页，从返回的网页来看，我们成功获得了百度的html。

from selenium import webdriver

# 网站地址
url = 'http://www.baidu.com'

option = webdriver.ChromeOptions()
driver = webdriver.Chrome(option)
driver.get(url)

html = driver.page_source  # 获取网页源码
print(html)

在这里插入图片描述

2. seleium的元素交互

这里我们获取了百度的搜索框，搜索陈奕迅，id指的是HTML的属性，下面的图片是百度一下按钮的HTML截图。

# 获取文本框的对象
input = driver.find_element('id', 'kw')
# 在文本框中输入陈奕迅
input.send_keys('陈奕迅')

在这里插入图片描述

这里是点击按钮。

# 获取百度一下的按钮
button = driver.find_element('id', 'su')
# 点击按钮
button.click()

滑动网页到底部

# 划到底部
js_bottom = 'document.documentElement.scrollTop=100000'
driver.execute_script(js_bottom)

点击下一页

# 获取下一页的按钮
next = driver.find_element('xpath', '//a[@class="n"]')
# 点击下一页
next.click()

回到上一页和返回

# 回到上一页
driver.back()

# 退出
driver.quit()

休息两秒钟

time.sleep(2)

四、全部代码

from selenium import webdriver
import time

# 网站地址
url = 'http://www.baidu.com'


option = webdriver.ChromeOptions()

# 注意此处添加了chrome_options参数
driver = webdriver.Chrome(option)
driver.get(url)

time.sleep(2)

# 获取文本框的对象
input = driver.find_element('id', 'kw')
# 在文本框中输入陈奕迅
input.send_keys('陈奕迅')

time.sleep(2)

# 获取百度一下的按钮
button = driver.find_element('id', 'su')
# 点击按钮
button.click()

time.sleep(2)

# 划到底部
js_bottom = 'document.documentElement.scrollTop=100000'
driver.execute_script(js_bottom)

time.sleep(2)

# 获取下一页的按钮
next = driver.find_element('xpath', '//a[@class="n"]')
# 点击下一页
next.click()

time.sleep(2)

# 回到上一页
driver.back()

time.sleep(2)

# 回去
driver.forward()

time.sleep(3)

# 退出
driver.quit()

五、Python爬虫与Selenium的注意事项和法律法规

在使用Python爬虫与Selenium进行数据抓取时，需要注意以下事项和遵守相关法律法规：

尊重网站robots.txt协议：许多网站都有robots.txt文件，用于指导搜索引擎爬虫如何抓取其内容。在使用Python爬虫抓取数据时，应遵循robots.txt的规则，避免抓取受限制的页面或违反网站的使用条款。
遵守法律法规和道德规范：在进行数据抓取时，必须遵守当地的法律法规，尊重他人的隐私和权益。不得利用爬虫进行恶意攻击、干扰网站的正常运行或侵犯他人的合法权益。
注意保护个人隐私和网络安全：在抓取数据时，应尊重用户的隐私权，避免收集和存储个人敏感信息。同时，要确保爬虫行为不会对目标网站或网络造成安全威胁，如拒绝服务攻击等。
尊重网站所有者的权益和意愿：在进行数据抓取时，应尊重网站所有者的权益和意愿。如果网站所有者明确禁止爬虫访问，应遵守规定，避免对网站造成不必要的负担或干扰。
尊重他人的劳动成果和知识产权：在进行数据抓取时，应尊重他人的劳动成果和知识产权。不得随意复制、传播或利用他人的创作成果，避免侵犯他人的知识产权。

总结：Python爬虫与Selenium的前景和未来发展

随着互联网的快速发展和数据价值的不断提升，Python爬虫与Selenium的应用前景十分广阔。未来，随着技术的不断进步和应用需求的增长，Python爬虫与Selenium将会在更多领域得到应用，如数据挖掘、商业智能、社交媒体监控等。同时，随着法律法规的完善和道德规范的建立，Python爬虫与Selenium的发展也将更加规范和可持续。总之，Python爬虫与Selenium作为一种高效、稳定的数据抓取工具，将会在未来继续发挥重要作用，为人们的工作和生活带来更多便利和价值。

拾光574

关注

17
点赞
踩
23

收藏

觉得还不错? 一键收藏
1
评论
Python爬虫与Selenium：简单使用

随着互联网的快速发展，数据已经成为人们生活中不可或缺的一部分。而如何有效地获取这些数据，成为了许多企业和个人关注的焦点。Python作为一种强大的编程语言，因其易学易用、功能强大等特点，成为了数据获取的首选工具。而Selenium作为一种自动化测试工具，可以模拟真实用户操作，如点击、输入等，使得数据抓取更加稳定和可靠。本文将介绍Python爬虫与Selenium的基本概念、环境搭建、基本使用、进阶使用以及注意事项，帮助读者全面了解Python爬虫与Selenium的使用方法和应用场景。
复制链接

扫一扫