selenium模块
与爬虫的联系
- 便捷的获取网站中动态加载的数据
- 便捷的实现模拟登入
定义
基于浏览器自动化的模块。
使用流程
安装环境
pip install selenium
下载浏览器的驱动程序
以下以谷歌浏览器为例:
http://chromedriver.storage.googleapis.com/index.html
下载对应版本的驱动
实例化浏览器对象
from selenium import webdriver
driver = webdriver.Chrome(executable_path='E:\chromedriver.exe')
也可直接将驱动程序,放在python的文件目录中
from selenium import webdriver
driver = webdriver.Chrome()
方法
发送请求 get()
driver.get('https://www.taobao.com/')
find定位系列
执行js代码 execute_script()
driver.execute_script('js代码')
交互 输入值 send_keys()
driver.find_element_by_id('q').send_keys('狗子')
点击事件 click()
driver.find_element_by_xpath('//*[@id="J_TSearchForm"]/div[1]/button').click()
回退返回 back()
driver.back()
前进 forward()
driver.forward()
退出浏览器
driver.quit()
处理 iframe
获取iframe子页面的数据,直接用find系列的方法得不到数据,需要使用switch_to.frame(‘iframeid’)切换标签定位的作用域
driver.switch_to.frame('iframeResult')
driver.find_element_by_id('draggable')
动作链
实现一系列连续操作,例如长按后拖动等
perform()让动作链立即执行
from selenium.webdriver import ActionChains
action = ActionChains(driver)
点击长按 click_and_hold(arg)
action.click_and_hold(span)
像素偏移 move_by_offset(x, y)
action.move_by_offset(20, 0).perform()
释放动作链
perform()