python-12（selenium爬取）

何老生

于 2024-05-23 11:59:10 发布

阅读量787

点赞数 29

文章标签： python 开发语言

本文链接：https://blog.csdn.net/2302_79087378/article/details/139143772

版权

selenium

前言

使用python的requests模块还是存在很大的局限性，例如：只发一次请求；针对ajax动态加载的网页则无法获取数据等等问题。特此，本章节将通过selenium模拟浏览器来完成更高级的爬虫抓取任务。

什么是selenium

Selenium是一个用于自动化Web应用程序测试的开源工具集。它提供了一组API和工具，可以与多种编程语言一起使用，如Java、Python、C#等，用于模拟用户在浏览器中的行为，如点击、填写表单、提交数据等。Selenium可以运行在各种浏览器上，包括Chrome、Firefox、Safari等，它还可以与多个测试框架和开发工具集成，如JUnit、TestNG、Maven等。

组成

Selenium的核心组件是WebDriver，它可以直接与浏览器进行交互，并模拟用户操作。WebDriver提供了一系列的方法和命令，可以控制浏览器的打开、页面导航、元素查找、交互操作等。使用Selenium，开发人员可以编写自动化测试脚本，以验证Web应用程序的功能和性能，并自动运行这些脚本进行回归测试。

除了WebDriver，Selenium还包含其他辅助工具，如Selenium IDE（集成开发环境）和Selenium Grid（分布式测试工具），它们提供了更多的功能和扩展性，以满足不同的测试需求。

总之，Selenium是一个功能强大的自动化测试工具，可用于模拟用户在浏览器中的行为，以及验证和测试Web应用程序的功能和性能。

特点

开源、免费
多浏览器支持:FireFox、Chrome、IE、Opera、Edge;
多平台支持:Linux、Windows、MAC;
多语言支持:Java、Python、Ruby、C#、JavaScript、C++;
对Web页面有良好的支持；
简单(API 简单)、灵活(用开发语言驱动);
支持分布式测试用例执行。

通过selenium模拟浏览器的抓取

下载与导入

点击 File -> Settings -> 选择项目:python12中的Python解析器，再点击 + 按钮，输入selenium，选择指定的版本，最后点击安装包(I)即可。

注意：这里下载的selenium 4.0.0，不要下载高版本，怕出问题，与4.0.0一致即可。

新建python文件，导入selenium中的webdriver：

from selenium from webdriver

下载webDriver

新版本的浏览器请使用此处地址：Chrome for Testing availability

下载对应浏览器的webDriver，例如：Chrome浏览器对应的webDriver

注意：一定要下载浏览器对应版本的webDriver，如果没有完全对应的，可以下载接近版本的webDriver。

将下载chromedriver_win32.zip解压，并将其内的chromedriver.exe复制到Python安装目录下的Scripts目录中。

基本使用

from selenium import webdriver

# 使用Chrome谷歌的webDriver
driver = webdriver.Chrome()
# 模拟get请求抓取jd网站
driver.get("https://www.jd.com")

Firefox：

driver = webdriver.Firefox()

Safari：

driver = webdriver.Safari()

Edge：

driver = webdriver.Edge()

Edge案例

from selenium import webdriver

# 使用不同的方法创建一个webdriver对象
driver = webdriver.Edge()

# 模拟get请求抓取jd网站
driver.get("https://www.jd.com")

# 使用JavaScript执行滚动操作，将页面滚动到底部
driver.execute_script('window.scrollTo(0,document.body.scrollHeight);')

元素查找

使用find_element方法查找元素。可以使用各种定位方式，例如通过ID、类名、标签名等。

方法	说明
find_element_by_name	通过ID查找元素
find_element_by_xpath	通过XPath查找元素
find_element_by_tag_name	通过标签名查找元素
find_element_by_class_name	通过类名查找元素
find_element_by_css_selector	通过CSS选择器查找元素

注意：多个元素的查找只需要将element改为elements即可。

# 通过ID查找元素
element = driver.find_element_by_id("J_searchbg")
print(element.text)
# 通过标签名查找
element = driver.find_element_by_tag_name("input")
print(element.get_attribute("aria-label"))
# 通过css样式查找
elements = driver.find_element_by_class_name("button")
print(elements.get_attribute("aria-label"))

注意：element.text用于获取元素的文本内容；element.get_attribute()用于获取元素的属性值。

from selenium import webdriver
from selenium.webdriver.common.by import By

# 创建一个Edge浏览器的实例
driver = webdriver.Edge()

# 打开京东网站
driver.get("https://www.jd.com")

# (1) 根据组件ID查找元素
# 这里假设有一个元素的ID是"J_searchbg"，并打印其文本内容
element = driver.find_element(By.ID, "J_searchbg")
print(element.text)

# (2) 根据标签名字查找元素
# 这里假设有一个input标签的元素，并打印其aria-label属性值
# element = driver.find_element_by_tag_name('input')
element = driver.find_element(By.TAG_NAME, value='input')
print(element.get_attribute('aria-label'))

# (3) 根据class属性标签值查找元素
# 这里假设有一个class为'button'的元素，并打印其aria-label属性值
element = driver.find_element(By.CLASS_NAME, value='button')
print(element.get_attribute('aria-label'))

# (4) 获取多个class为'navitems-lk'的元素
elements = driver.find_elements(By.CLASS_NAME, value='navitems-lk')
for e in elements:
    print(e.text)

# (5) 根据CSS选择器查找元素
# 这里假设有一个CSS选择器为"#navitems-group1 .navitems-lk"的元素，并打印其文本内容
elements = driver.find_elements(By.CSS_SELECTOR, value="#navitems-group1 .navitems-lk")
for e in elements:
    print(e.text)

模拟用户操作

方法	说明
clear	清楚元素内容
send_keys("值")	模拟按键输入
click	单击元素，触发元素的点击事情
submit	提交表单

案例演示：如何模拟JD商城搜索指定商品信息

import time
from selenium import webdriver

driver = webdriver.Chrome();
driver.get("https://search.jd.com/Search?keyword=手机")

# 获取输入框
val = driver.find_element_by_id("key")
# 清空输入框的条件
val.clear()
# 重新设置查询条件
val.send_keys("电脑")
# 获取查询按钮并触发点击事件
btn = val.parent.find_element_by_css_selector("button.button.cw-icon")
btn.click()
# 睡眠3秒
time.sleep(3)
# 滚动到页面底部
# driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
# 睡眠3秒
# time.sleep(3)
# 循环获取网页中电脑的名称
names = driver.find_elements_by_css_selector("#J_goodsList > ul > li > div > div.p-name.p-name-type-2 > a > em")
for name in names:
    print("【电脑】--",name.text)

from selenium import webdriver
from selenium.webdriver.common.by import By

# 创建一个Edge浏览器的实例
driver = webdriver.Edge()

# 打开一个网页
driver.get('https://ks.pconline.com.cn/')

# 在网页中找到ID为'q'的元素，并向其中输入文本'手机'
driver.find_element(By.ID, 'q').send_keys('手机')

# 找到类名为'ksSubmit'的元素，并点击它
driver.find_element(By.CLASS_NAME, 'ksSubmit').click()

# 找到CSS选择器为'#ksType [rel="cp"] a'的元素，并点击它
driver.find_element(By.CSS_SELECTOR, '#ksType [rel="cp"] a').click()

# 使用JavaScript将页面滚动到最底部
driver.execute_script('window.scrollTo(0,document.body.scrollHeight);')

# 找到所有类名为'item-name'的元素，并遍历它们
elements = driver.find_elements(By.CLASS_NAME, 'item-name')
for e in elements:
    # 打印每个元素的文本内容
    print(e.text)

优化操作

无头模式：不打开浏览器

import time

from selenium import webdriver

options = webdriver.ChromeOptions()
options.add_argument("--headless")
driver = webdriver.Chrome(options=options)
driver.get("https://search.jd.com/Search?keyword=手机")

案例演示：模拟点击frame窗口中的按钮

import time

from selenium import webdriver

driver = webdriver.Chrome()
driver.get("https://search.jd.com/Search?keyword=手机")

# 点击用户图标
user = driver.find_element_by_class_name("tab-ico")
user.click()
# 睡眠2秒
time.sleep(2)
# 先要获取弹开的子窗口frame
frame = driver.find_element_by_id("dialogIframe")
# 切换到子窗口
driver.switch_to.frame(frame)
# 在获取子窗口中的QQ登录按钮
driver.find_element_by_css_selector("a.pdl").click()

何老生

关注

29
点赞
踩
30

收藏

觉得还不错? 一键收藏
1
评论
python-12（selenium爬取）

Selenium是一个用于自动化Web应用程序测试的开源工具集。它提供了一组API和工具，可以与多种编程语言一起使用，如Java、Python、C#等，用于模拟用户在浏览器中的行为，如点击、填写表单、提交数据等。Selenium可以运行在各种浏览器上，包括Chrome、Firefox、Safari等，它还可以与多个测试框架和开发工具集成，如JUnit、TestNG、Maven等。
复制链接

扫一扫