python 组件安装:
pip install selenium
引入组件:
【from selenium import webdriver】
【from selenium.webdriver.chrome.options import Options】
1、构建浏览器链接:
chrome_options = Options()
chrome_options.add_argument('--headless')
driver = webdriver.Chrome(options=chrome_options)
2、打开网站地址
driver.get('https://www.cls.cn/telegraph')
# 将滚动条下拉至最低
js = "var q=document.documentElement.scrollTop=100000"
driver.execute_script(js)
3、获取标签文本内容
val = driver.find_elements_by_xpath('//div[@class="f-l content-left"]/div/div[@class="b-c-e6e7ea telegraph-list"]')[0].text
点击事件
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait as wait
# 模拟浏览器点击
wait(driver_data, 0.5).until(EC.element_to_be_clickable((By.XPATH,'//div[@id="sltYears"]/a'))).click()
获取标签内部元素值:
url_pre = driver.find_elements_by_xpath('//div...')
# 获取标签data-value元素值
data_value = url_pre.get_attribute("data-value")
# 获取标签title元素值
url_txt = url_pre.get_property("title")
# 获取标签href元素值
href_txt = url_pre.get_attribute("href")
向输入框中输入内容:
puth = driver.find_element_by_id('输入框ID')
puth.send_keys("内容")
获取指定位置网页结构代码:
driver.get('https://www.cls.cn/telegraph') # 打开网页
# 获取指定标签下的网页源代码
clsxpath = driver.find_element_by_xpath('//div[@class="b-c-e6e7ea telegraph-list"][' + str(count-i) + ']')
# 转换为文本格式
leachText =clsxpath.get_attribute('innerHTML')