1.selenium介绍
介绍:
1.selenium是一个web自动化测试用的框架. 程序员可以通过代码实现对浏览器的控制, 比如打开网页, 点击网页中的元素, 实现鼠标滚动等操作.
2.它支持多款浏览器, 如谷歌浏览器, 火狐浏览器等等, 当然也支持无头浏览器.
2.selenium安装
三要素: 浏览器, 驱动程序, selenium框架
浏览器: 推荐谷歌浏览器, 标准稳定版本
驱动程序:http://chromedriver.storage.googleapis.com/index.html
pip install selenium
3.selenium常用操作
# 实例化浏览器对象:
from selenium import webdriver
browser = webdriver.Chrome('driverpath')
# 发送get请求:
browser.get('https://www.baidu.com')
# 获取页面元素:
find_element_by_id:根据元素的id
find_element_by_name:根据元素的name
find_element_by_xpath:根据xpath表达式
find_element_by_class_name:根据class的值
find_element_by_css_selector:根据css选择器
# 节点交互操作:
click(): 点击
send_keys(): 输入内容
clear(): 清空操作
execute_script(js): 执行指定的js代码
# JS代码: window.scrollTo(0, document.body.scrollHeight)可以模拟鼠标滚动一屏高度
quit(): 退出浏览器
# 获取网页的数据:
browser.page_source ---> str类型
# frame
switch_to.frame('frameid')
4.用selenium爬拉勾网信息
from selenium import webdriver
import time
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.select import Select
# 准备好参数配置
opt = Options()
opt.add_argument("--headless")
opt.add_argument("--disbale-gpu")
web = webdriver.Chrome(options=opt) # 把参数配置设置到浏览器中
web.get("https://www.endata.com.cn/BoxOffice/BO/Year/index.html")
# 定位到下拉列表
time.sleep(2)
sel_el = web.find_element_by_xpath('//*[@id="OptionDate"]')
# 对元素进行包装,包装成下拉菜单
sel = Select(sel_el)
# 让浏览器进行调整选项
for i in range(len(sel.options)): # i就是每一个下拉框选项的索引位置
sel.select_by_index(i) # 按照索引进行切换
time.sleep(2)
table = web.find_element_by_xpath('//*[@id="TableList"]/table')
print(table.text) # 打印所有的文本信息
print("=========================")
print("运行完毕。")
web.close()
# 如何拿到页面代码Elements(经过数据加载以及js执行之后的结果的html内容)
print(web.page_source)