- Selenium是一个Web的自动化测试工具,
- Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,设置数据, 点击按钮, 甚至页面截屏,或者判断网站上某些动作是否发生
- Selenium 自己不带浏览器,不支持浏览器的功能,它需要与第三方浏览器结合在一起才能使用。
- Selenium 安装
sudo pip install selenium
- ChromeDriver下载安装:
- 注意下载的版本号要支持你的浏览器
- 淘宝镜像
- ChromeDriver淘宝镜像
- 注意查看chromedriver支持的版本
- Linux 或 Mac 解压后直接拷贝到usr/local/bin 或 usr/bin 下即可; 也可以制作软连接放到上面的两个路径下
- 在Linux或Mac中如果报关于Permission的错误, 是因为chromedriver这个文件没有执行权限, 就修改chromedriver文件的权限为 777
- chmod 777 chromedriver
- 加载网页:
- from selenium import webdriver
- driver = webdriver.Chrome()
如果是Windows()中传入driver的路径: “c:…/pantomjs.exe”
- driver.get("http://www.baidu.com/")
- driver.save_screenshot("baidu.png")
- 定位和操作:
- driver.find_element_by_id(“kw”).send_keys(“python”)
- driver.find_element_by_id("su").click()
- 查看请求信息:
- driver.page_source
- driver.get_cookies()
- driver.current_url
-
退出
- driver.close() #退出当前页面
- driver.quit() #退出浏览器
selenium定位页面元素
- 用法:
- find_element_by_id (返回一个,如果没有就报错了)
- find_elements_by_xpath (返回一个列表,如果没有就返回一个空列表)
- find_elements_by_link_text (根据文本内容返回元素列表, 如果没有返回空列表)
- find_elements_by_partial_link_text (根据文件部分内容返回元素列表, 如果没有返回空列表)
- find_elements_by_tag_name(根据标签名[节点名]返回元素元素列表, 如果没有返回空列表)
- find_elements_by_class_name(根据class属性对应值范围元素列表, 如果没有返回空列表)
- find_elements_by_css_selector(根据css选择器返回元素列表, 如果没有返回空列表)
-
注意点:
-
find_element 和find_elements的区别:
- find_element: 返回找到第一个元素,如果没有报错
- find_elements: 返回找到的所有元素列表, 如果没有找到返回空列表
-
by_link_text和by_partial_link_text的区别:
- by_link_text: 全部文本都一样
- by_partial_link_text: 包含某个文本
- by_xpath只能获取元素, 要获取属性和文本需要使用get_attribute(属性名) 和.text
-
获取元素的数据与操作
- get_attribute(key) : 获取节点上的属性
- text属性: 获取该节点上以及子节点的文本
- click(): 点击控件
from selenium import webdriver
import time
dr = webdriver.Chrome()
dr.get('http://www.baidu.com')
el = dr.find_element_by_id('kw')
el = dr.find_element_by_name('wd')
el = dr.find_element_by_xpath('//*[@id="kw"]')
# 通过链接文本进行定位
el = dr.find_element_by_link_text('hao123')
el = dr.find_element_by_partial_link_text('hao12')
# el.click()
# 通过class值定位元素
el = dr.find_element_by_class_name('head_wrapper')
print(el.get_attribute('class'))
# 通过css选择器定位元素
el = dr.find_element_by_css_selector('#kw')
print(el)
# send_keys是往可以输入内容的标签中输入数据
el.send_keys('python23')
time.sleep(3)
el.clear()
el.send_keys('python爬虫')
el_submit = dr.find_element_by_id('su')
# 模拟点击
el_submit.click()
time.sleep(3)
dr.quit()