python selenium网页爬虫_爬虫的得到源代码有document-CSDN博客

本文链接：https://blog.csdn.net/ly2497935393/article/details/118087420

python 组件安装:

pip install selenium

引入组件：

【from selenium import webdriver】
【from selenium.webdriver.chrome.options import Options】

1、构建浏览器链接：

chrome_options = Options()
chrome_options.add_argument('--headless')
driver = webdriver.Chrome(options=chrome_options)

2、打开网站地址

driver.get('https://www.cls.cn/telegraph')
# 将滚动条下拉至最低
js = "var q=document.documentElement.scrollTop=100000"
driver.execute_script(js)

3、获取标签文本内容

val = driver.find_elements_by_xpath('//div[@class="f-l content-left"]/div/div[@class="b-c-e6e7ea telegraph-list"]')[0].text

点击事件

from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait as wait

# 模拟浏览器点击
wait(driver_data, 0.5).until(EC.element_to_be_clickable((By.XPATH,'//div[@id="sltYears"]/a'))).click()

获取标签内部元素值：

url_pre = driver.find_elements_by_xpath('//div...')
# 获取标签data-value元素值
data_value = url_pre.get_attribute("data-value")
# 获取标签title元素值
url_txt = url_pre.get_property("title")
# 获取标签href元素值
href_txt = url_pre.get_attribute("href")

向输入框中输入内容：

puth = driver.find_element_by_id('输入框ID')
puth.send_keys("内容")

获取指定位置网页结构代码：

	driver.get('https://www.cls.cn/telegraph') # 打开网页
	# 获取指定标签下的网页源代码
	clsxpath = driver.find_element_by_xpath('//div[@class="b-c-e6e7ea telegraph-list"][' + str(count-i) + ']')
	# 转换为文本格式
	leachText =clsxpath.get_attribute('innerHTML')