Python爬虫基础之Selenium详解_python selenium(2)

本文介绍了Selenium库如何模拟浏览器功能,包括安装Chrome驱动、创建浏览器对象、元素定位策略(ID、NAME、XPATH、TAG_NAME等)以及基本的页面交互操作,如输入文本、点击和JavaScript执行。
摘要由CSDN通过智能技术生成

Selenium 能模拟浏览器功能自动执行网页中的 JavaScript 代码,实现动态加载。

3. Selenium的安装

谷歌浏览器驱动下载地址:https://registry.npmmirror.com/binary.html?path=chromedriver/
  查看自己谷歌浏览器的版本,我这里的版本是正式版本116.0.5845.188,驱动下载地址最新的只有114.0.5735.90,所以只能去官网的测试页面下载118.0.5993.70版本的驱动(https://googlechromelabs.github.io/chrome-for-testing/#stable,版本向下兼容),然后把下载的压缩包解压,将exe文件放入 PyCharm 项目的根目录下。
  之后执行pip install selenium命令,安装 selenium 库。

4. Selenium的使用

from selenium import webdriver

# 创建浏览器操作对象
path = 'chromedriver.exe'
browser= webdriver.Chrome(path)

# 访问网站
url = 'https://www.baidu.com'

browser.get(url)
# content = browser.page\_source
# print(content)

需要注意的是,如果你的 selenium 是4.11.2以上的版本,不需要设置driver.exe的路径,selenium 可以自己处理浏览器的驱动程序,因此代码直接改为brower = webdriver.Chrome()即可。
  运行代码,得到下面的效果:

5. Selenium的元素定位

自动化工具要做的就是模拟鼠标和键盘来操作点击、输入等等元素,但是操作这些元素的前提是找到它们,WebDriver 提供了很多元素定位的方法:

  • 根据标签 id 获取元素:
from selenium import webdriver
from selenium.webdriver.common.by import By

# 创建浏览器操作对象
# path = 'chromedriver.exe'
browser= webdriver.Chrome()

# 访问网站
url = 'https://www.baidu.com'
browser.get(url)

button = browser.find_element(By.ID, 'su')
# button = browser.find\_elements(By.ID, 'su')
print(button)

  • 根据标签 name 属性的值获取元素:
button = browser.find_element(By.NAME, 'wd')
print(button)

  • 根据 Xpath 语句获取元素;
button = browser.find_element(By.XPATH, '//input[@id="su"]')
print(button)

  • 根据标签名获取元素:
button = browser.find_elements(By.TAG_NAME, 'input')
print(button)

  • 根据 bs4 语法获取元素:
button = browser.find_elements(By.CSS_SELECTOR, '#su')
print(button)

  • 根据标签的文本获取元素(精确定位):
button = browser.find_elements(By.LINK_TEXT, '地图')
print(button)

  • 根据标签的文本获取元素(模糊定位):
button = browser.find_elements(By.PARTIAL_LINK_TEXT, '地')
print(button)

  • 根据 class 属性获取元素:
button = browser.find_element(By.CLASS_NAME, 'wrapper\_new')
print(button)

当我们定位到元素之后,自然就要考虑如何获取到元素的各种信息,selenium 给我们提供了获取元素不同信息的方法:

  • 获取元素属性:
from selenium import webdriver
from selenium.webdriver.common.by import By

# 创建浏览器操作对象
# path = 'chromedriver.exe'
browser= webdriver.Chrome()

# 访问网站
url = 'https://www.baidu.com'
browser.get(url)

button = browser.find_element(By.ID, 'su')
print(input.get_attribute('class'))

  • 获取元素标签名:
input = browser.find_element(By.ID, 'su')
print(input.tag_name)

  • 获取元素文本:
input = browser.find_element(By.ID, 'su')
print(input.text)

  • 获取元素位置:
input = browser.find_element(By.ID, 'su')
print(input.location)

  • 获取元素大小:
input = browser.find_element(By.ID, 'su')
print(input.size)

6. Selenium的交互

页面交互指的是我们平时在浏览器上的各种操作,比如输入文本、点击链接、回车、下拉框等,下面就演示 selenium 是如何进行页面交互的。

  • 输入文本:
from selenium import webdriver
from selenium.webdriver.common.by import By
import time

# 创建浏览器操作对象
# path = 'chromedriver.exe'
browser = webdriver.Chrome()

# 访问网站
url = 'https://www.baidu.com'
browser.get(url)

# 定位输入框
input = browser.find_element(By.ID, 'kw')
# 输入文本selenium
input.send_keys('selenium')
time.sleep(2)

# 关闭浏览器
browser.close()

  • 点击:
from selenium import webdriver
from selenium.webdriver.common.by import By
import time

# 创建浏览器操作对象
# path = 'chromedriver.exe'
browser = webdriver.Chrome()

# 访问网站
url = 'https://www.baidu.com'
browser.get(url)

# 定位输入框
input = browser.find_element(By.ID, 'kw')
# 输入文本selenium
input.send_keys('selenium')
time.sleep(2)

# 定位百度一下的按钮
button = browser.find_element(By.ID, 'su')
# 点击按钮
button.click()
time.sleep(2)

# 关闭浏览器
browser.close()

  • 清除文本:
from selenium import webdriver
from selenium.webdriver.common.by import By
import time

# 创建浏览器操作对象
# path = 'chromedriver.exe'
browser = webdriver.Chrome()

# 访问网站
url = 'https://www.baidu.com'
browser.get(url)

# 定位输入框
input = browser.find_element(By.ID, 'kw')
# 输入文本selenium
input.send_keys('selenium')
time.sleep(2)

# 清除selenium
input.clear()
time.sleep(2)

# 关闭浏览器
browser.close()

  • 回车确认:
from selenium import webdriver
from selenium.webdriver.common.by import By
import time

# 创建浏览器操作对象
# path = 'chromedriver.exe'
browser = webdriver.Chrome()

# 访问网站
url = 'https://www.baidu.com'
browser.get(url)

# 定位输入框
input = browser.find_element(By.ID, 'kw')
# 输入文本selenium
input.send_keys('selenium')
time.sleep(2)

# 回车查询
input.submit()
time.sleep(2)

# 关闭浏览器
browser.close()

  • 运行 JavaScript:
from selenium import webdriver
from selenium.webdriver.common.by import By
import time

# 创建浏览器操作对象
# path = 'chromedriver.exe'
browser = webdriver.Chrome()

# 访问网站
url = 'https://www.baidu.com'
browser.get(url)

# 定位输入框
input = browser.find_element(By.ID, 'kw')
# 输入文本selenium
input.send_keys('selenium')
time.sleep(2)

# 回车查询
input.submit()
time.sleep(2)

# js代码
js_bottom = 'document.documentElement.scrollTop=100000'
# 下拉进度条,页面滑动
browser.execute_script(js_bottom)
 **自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。**

**深知大多数Python工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!**

**因此收集整理了一份《2024年Python开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。**

![img](https://img-blog.csdnimg.cn/img_convert/cf94e9827f363b98bf817e4eddc039a8.png)

![img](https://img-blog.csdnimg.cn/img_convert/58cfc6fa311fa29160639304e6437fa1.png)

![img](https://img-blog.csdnimg.cn/img_convert/385cc9868338d0fb39cdb7f89a08d704.png)

![img](https://img-blog.csdnimg.cn/img_convert/ea8c355f11e218ec686af96bd943f796.png)

![img](https://img-blog.csdnimg.cn/img_convert/6c361282296f86381401c05e862fe4e9.png)

![img](https://img-blog.csdnimg.cn/img_convert/9f49b566129f47b8a67243c1008edf79.png)

**既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上前端开发知识点,真正体系化!**

**由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新**

**如果你觉得这些内容对你有帮助,可以扫码获取!!!(备注Python)**

rt/6c361282296f86381401c05e862fe4e9.png)

![img](https://img-blog.csdnimg.cn/img_convert/9f49b566129f47b8a67243c1008edf79.png)

**既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上前端开发知识点,真正体系化!**

**由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新**

**如果你觉得这些内容对你有帮助,可以扫码获取!!!(备注Python)**

<img src="https://img-community.csdnimg.cn/images/fd6ebf0d450a4dbea7428752dc7ffd34.jpg" alt="img" style="zoom:50%;" />
  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值