selenium爬取拉勾网

1 安装selenium和webdriver

在Python路径下安装selenium,安装成功后还需安装相应浏览器的webdriver,不然无法控制浏览器,比如谷歌浏览器要下载chromedriver
在这里插入图片描述
进入官网 http://npm.taobao.org/mirrors/chromedriver/ ,红框中是浏览器版本相应的chromedriver,选择下载后,将压缩包解压
在这里插入图片描述
将文件复制到Python路径下的scripts中,不需要配置环境就可以写代码了
在这里插入图片描述

1.1 自动控制浏览器

用百度首页作为例子去控制浏览器

import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

url = "https://www.baidu.com/"

#创建一个浏览器
driver = webdriver.Chrome()
driver.get(url) #打开网页

search = driver.find_element_by_xpath('//*[@id="kw"]') #输入框节点
search.send_keys('贵州财经大学') #发送内容
search.send_keys(Keys.ENTER) #回车
# time.sleep(3) #等待网页加载
# search.find_element_by_id('su').click() #点击


time.sleep(5) #暂停5秒
driver.close() #关闭浏览器

运行结果:
在这里插入图片描述

2 正式爬取拉勾网

2.1控制浏览器,进入拉勾网

用selenium控制浏览器进入拉勾网,查询有关Python 爬虫的职位

import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

#拉勾网链接
url=" https://www.lagou.com/"

#创建浏览器,打开拉勾网链接
driver = webdriver.Chrome()
driver.get(url)

在这里插入图片描述
进入首页后,会跳转出一个选择城市分站的小窗口,对网页元素检查,按照图中标的顺序复制“全国站”的xpath路径,让浏览器自动点击
在这里插入图片描述

#自动点击全国站
driver.find_element_by_xpath('//*[@id="changeCityBox"]/p[1]/a').click()

选择好城市分站后,让浏览器自动在首页搜索框中输入Python 爬虫,对网页元素检查,按照图中箭头所指可找到搜索框 id,然后在搜索框中输入“Python 爬虫”
在这里插入图片描述

#搜索框
search = driver.find_element_by_id('search_input') 
#发送内容
search.send_keys('python 爬虫') 

点击“搜索”,查询相关职位,用查找搜索框id的方式zhan查找“搜索”的id在这里插入图片描述

#导入包
import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

#拉勾网链接
url=" https://www.lagou.com/"

#创建浏览器,打开拉勾网链接
driver 
  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值