python selenium网页爬虫

python 组件安装:

pip install selenium

引入组件:

【from selenium import webdriver】
【from selenium.webdriver.chrome.options import Options】

1、构建浏览器链接:

chrome_options = Options()
chrome_options.add_argument('--headless')
driver = webdriver.Chrome(options=chrome_options)

2、打开网站地址

driver.get('https://www.cls.cn/telegraph')
# 将滚动条下拉至最低
js = "var q=document.documentElement.scrollTop=100000"
driver.execute_script(js)

3、获取标签文本内容

val = driver.find_elements_by_xpath('//div[@class="f-l content-left"]/div/div[@class="b-c-e6e7ea telegraph-list"]')[0].text

点击事件

from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait as wait

# 模拟浏览器点击
wait(driver_data, 0.5).until(EC.element_to_be_clickable((By.XPATH,'//div[@id="sltYears"]/a'))).click()

获取标签内部元素值:

url_pre = driver.find_elements_by_xpath('//div...')
# 获取标签data-value元素值
data_value = url_pre.get_attribute("data-value")
# 获取标签title元素值
url_txt = url_pre.get_property("title")
# 获取标签href元素值
href_txt = url_pre.get_attribute("href")

向输入框中输入内容:

puth = driver.find_element_by_id('输入框ID')
puth.send_keys("内容")

获取指定位置网页结构代码:

	driver.get('https://www.cls.cn/telegraph') # 打开网页
	# 获取指定标签下的网页源代码
	clsxpath = driver.find_element_by_xpath('//div[@class="b-c-e6e7ea telegraph-list"][' + str(count-i) + ']')
	# 转换为文本格式
	leachText =clsxpath.get_attribute('innerHTML')
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值