文章目录
1 安装selenium和webdriver
在Python路径下安装selenium,安装成功后还需安装相应浏览器的webdriver,不然无法控制浏览器,比如谷歌浏览器要下载chromedriver
进入官网 http://npm.taobao.org/mirrors/chromedriver/ ,红框中是浏览器版本相应的chromedriver,选择下载后,将压缩包解压
将文件复制到Python路径下的scripts中,不需要配置环境就可以写代码了
1.1 自动控制浏览器
用百度首页作为例子去控制浏览器
import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
url = "https://www.baidu.com/"
#创建一个浏览器
driver = webdriver.Chrome()
driver.get(url) #打开网页
search = driver.find_element_by_xpath('//*[@id="kw"]') #输入框节点
search.send_keys('贵州财经大学') #发送内容
search.send_keys(Keys.ENTER) #回车
# time.sleep(3) #等待网页加载
# search.find_element_by_id('su').click() #点击
time.sleep(5) #暂停5秒
driver.close() #关闭浏览器
运行结果:
2 正式爬取拉勾网
2.1控制浏览器,进入拉勾网
用selenium控制浏览器进入拉勾网,查询有关Python 爬虫的职位
import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
#拉勾网链接
url=" https://www.lagou.com/"
#创建浏览器,打开拉勾网链接
driver = webdriver.Chrome()
driver.get(url)
进入首页后,会跳转出一个选择城市分站的小窗口,对网页元素检查,按照图中标的顺序复制“全国站”的xpath路径,让浏览器自动点击
#自动点击全国站
driver.find_element_by_xpath('//*[@id="changeCityBox"]/p[1]/a').click()
选择好城市分站后,让浏览器自动在首页搜索框中输入Python 爬虫,对网页元素检查,按照图中箭头所指可找到搜索框 id,然后在搜索框中输入“Python 爬虫”
#搜索框
search = driver.find_element_by_id('search_input')
#发送内容
search.send_keys('python 爬虫')
点击“搜索”,查询相关职位,用查找搜索框id的方式zhan查找“搜索”的id
#导入包
import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
#拉勾网链接
url=" https://www.lagou.com/"
#创建浏览器,打开拉勾网链接
driver