Selenium是一个WEB自动化测试工具
建立webdriver
from selenium import webdriver
driver = webdriver.Chrome('chromedriver.exe')
driver.get(url)
driver.save_screenshot(filename) # 保存截图
driver支持上下文管理,需要用到headless浏览器,以Chrome为例
Chrome driver下载地址
下载解压后,参数填入exe文件的地址即可
查找元素
ele = driver.find_element_by_id(id)
ele = driver.find_element(By.ID, id)
两种写法等价,其他常用方法:
find_element_by_name
find_element_by_xpath
find_element_by_link_text
find_element_by_partial_link_text
find_element_by_tag_name
find_element_by_class_name
find_element_by_css_selector
模拟键盘操作
from selenium.webdriver.common.keys import Keys
ele.sent_keys(keys.ENTER)
获取cookies
cookies = driver.get_cookies
返回结果是一个列表,列表中存放多个字典
每个字典代表cookie中的一个键值对和其他信息
cookies键值对在字典中的key分别为’name’, ‘value’
例 {‘name’: ‘aliyungf_tc’, ‘value’: ‘abc’, …}
Selenium等待
当页面采用Ajax这样的异步加载时会导致要访问的元素还未加载完成就被访问了,所以需要selenium等待其加载完成再访问。
显示等待:
from selenium.webdriver.common.by import By
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
element = WebDriverWait(driver, 10).until(
EC.presence_of_element_located((By.XPATH, "//input[@id='inp-query']"))
)
默认查看频率为0.5s,常用等待条件:
presence_of_element_located 表示某个元素是否被加入DOM树,不一定可见
visibility_of_element_located 表示某个元素是否可见
参数为一个元组 由查找方法和查找语句构成 其他条件参见文档
隐式等待:
driver.implicitly_wait(second)
统一设置隐式等待秒数