Selenium中的EC(Expected Conditions)模块是用于辅助实现等待特定条件成立的一组预设条件,这些条件可用于等待页面加载、元素出现或状态改变等。它是webdriver包的一部分,通常与WebDriverWait类一起使用,以实现显式等待。
常用的Expected Conditions包括:
- presence_of_element_located: 等待直到元素出现在DOM中,但不一定可见。
- visibility_of_element_located: 等待直到元素出现在DOM中且可见(宽和高都大于0)。
- element_to_be_clickable: 等待直到元素可点击。
- title_is: 等待直到页面标题是某内容。
- text_to_be_present_in_element: 等待直到某元素的文本包含给定的文本。
使用实例:
使用EC模块和显示等待登录网页,并使用selenium爬取网页中表格数据:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
# 启动Chrome浏览器
driver = webdriver.Chrome()
# 打开网页
driver.get("http://example.com")
# 设置最长等待时间(例如10秒)
wait = WebDriverWait(driver, 10, 0.5) # 10为最长等待时间10s,0.5为检测频率
# 使用visibility_of_element_located
mobile = WebDriverWait(driver, 10, 0.5).until(EC.visibility_of_element_located((By.ID, 'mobile')))
mobile.send_keys('001')
passwd = WebDriverWait(driver, 10, 0.5).until(EC.visibility_of_element_located((By.ID, 'passwd')))
passwd.send_keys('password')
# 使用EC.element_to_be_clickable
submit_button = WebDriverWait(driver, 10, 0.5).until(EC.element_to_be_clickable((By.ID, 'submitButton')))
submit_button.click()
# 若需要爬取tr表格中的所有数据,可使用visibility_of_all_elements_located,单元素为element,多元素为elements
tr_element = WebDriverWait(driver, 10, 0.5).until(EC.visibility_of_element_located((By.CSS_SELECTOR, '#myTableqs > table > tbody')))
tr_content = WebDriverWait(tr_element, 10, 0.5).until(EC.visibility_of_all_elements_located((By.TAG_NAME, 'tr')))
# 关闭浏览器
driver.quit()
爬取表格数据时,使用CSS定位到表格内body,不需要定位到整个表格,然后使用TAG_NAME爬取表格内数据
tr_element = WebDriverWait(driver, 10, 0.5).until(EC.visibility_of_element_located((By.CSS_SELECTOR, '#myTableqs > table > tbody')))
tr_content = WebDriverWait(tr_element, 10, 0.5).until(EC.visibility_of_all_elements_located((By.TAG_NAME, 'tr')))