Selenium 库里有个叫 WebDriver 的 API,WebDriver 可以加载网站的浏览器,但是也可以像 BeautifulSoup 或者其他 Selector 对象一样用来查找页面元素,与页面上的元素进行交互 (发送文本、点击等),以及执行其他动作来运行网络爬虫。
1.加载网页
selenium通过控制浏览器,所以对应的获取的数据都是elements中的内容。
from selenium import webdriver
# 指定driver的绝对路径,也就是制定驱动程序的位置
# driver = webdriver.PhantomJS(executable_path='/home/worker/Desktop/driver/phantomjs')
driver = webdriver.Chrome(executable_path='/home/worker/Desktop/driver/chromedriver')
# 向url发起请求
driver.get("http://www.itcast.cn/")
# 把网页保存为图片
driver.save_screenshot("itcast.png")
# 退出模拟浏览器,一定要退出!不退出会有残留进程!
driver.quit()
2.定位和操作:
以百度搜索为例:
import time
from selenium import webdriver
driver = webdriver.Chrome(executable_path='/home/worker/Desktop/driver/chromedriver')
driv