Selenium的简单介绍与使用

最新推荐文章于 2022-03-28 17:30:44 发布

python开发

最新推荐文章于 2022-03-28 17:30:44 发布

阅读量310

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/pjn_hx/article/details/81213682

版权

爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Selenium是一个Web的自动化测试工具,
Selenium 可以根据我们的指令，让浏览器自动加载页面，获取需要的数据，设置数据, 点击按钮, 甚至页面截屏，或者判断网站上某些动作是否发生
Selenium 自己不带浏览器，不支持浏览器的功能，它需要与第三方浏览器结合在一起才能使用。

Selenium 安装
```
  sudo pip install selenium
```
ChromeDriver下载安装:
- 注意下载的版本号要支持你的浏览器
- 淘宝镜像
- ChromeDriver淘宝镜像
- 注意查看chromedriver支持的版本
- Linux 或 Mac 解压后直接拷贝到usr/local/bin 或 usr/bin 下即可; 也可以制作软连接放到上面的两个路径下
- 在Linux或Mac中如果报关于Permission的错误, 是因为chromedriver这个文件没有执行权限, 就修改chromedriver文件的权限为 777
  - chmod 777 chromedriver
加载网页：
- from selenium import webdriver
- driver = webdriver.Chrome() 如果是Windows()中传入driver的路径: “c:…/pantomjs.exe”
- driver.get("http://www.baidu.com/")
- driver.save_screenshot("baidu.png")
定位和操作：
- driver.find_element_by_id(“kw”).send_keys(“python”)
- driver.find_element_by_id("su").click()
查看请求信息：
- driver.page_source
- driver.get_cookies()
- driver.current_url
退出
- driver.close() #退出当前页面
- driver.quit() #退出浏览器

selenium定位页面元素

用法：
- find_element_by_id (返回一个,如果没有就报错了)
- find_elements_by_xpath （返回一个列表,如果没有就返回一个空列表）
- find_elements_by_link_text (根据文本内容返回元素列表, 如果没有返回空列表)
- find_elements_by_partial_link_text (根据文件部分内容返回元素列表, 如果没有返回空列表)
- find_elements_by_tag_name(根据标签名[节点名]返回元素元素列表, 如果没有返回空列表)
- find_elements_by_class_name(根据class属性对应值范围元素列表, 如果没有返回空列表)
- find_elements_by_css_selector(根据css选择器返回元素列表, 如果没有返回空列表)
注意点:
- find_element 和find_elements的区别：
  - find_element: 返回找到第一个元素,如果没有报错
  - find_elements: 返回找到的所有元素列表, 如果没有找到返回空列表
- by_link_text和by_partial_link_text的区别：
  - by_link_text: 全部文本都一样
  - by_partial_link_text: 包含某个文本
- by_xpath只能获取元素, 要获取属性和文本需要使用get_attribute(属性名) 和.text

获取元素的数据与操作

get_attribute(key) : 获取节点上的属性
text属性: 获取该节点上以及子节点的文本
click(): 点击控件

from selenium import webdriver
import time

dr = webdriver.Chrome()

dr.get('http://www.baidu.com')

el = dr.find_element_by_id('kw')
el = dr.find_element_by_name('wd')
el = dr.find_element_by_xpath('//*[@id="kw"]')

# 通过链接文本进行定位
el = dr.find_element_by_link_text('hao123')
el = dr.find_element_by_partial_link_text('hao12')
# el.click()

# 通过class值定位元素
el = dr.find_element_by_class_name('head_wrapper')
print(el.get_attribute('class'))

# 通过css选择器定位元素
el = dr.find_element_by_css_selector('#kw')
print(el)

# send_keys是往可以输入内容的标签中输入数据
el.send_keys('python23')
time.sleep(3)
el.clear()
el.send_keys('python爬虫')


el_submit = dr.find_element_by_id('su')
# 模拟点击
el_submit.click()

time.sleep(3)
dr.quit()