selenium爬取拉勾网

最新推荐文章于 2021-07-30 23:49:35 发布

向泽羿�️

最新推荐文章于 2021-07-30 23:49:35 发布

阅读量1.2k

点赞数 2

文章标签： selenium python

本文链接：https://blog.csdn.net/qq_44404262/article/details/105614724

版权

本文介绍了如何利用Python的selenium库爬取拉勾网的Python爬虫职位信息。首先，安装selenium和对应浏览器的webdriver，接着控制浏览器自动填写搜索条件并点击搜索。然后，解析页面提取职位和薪资信息，并实现翻页爬取。最后，将爬取到的数据写入csv文件。

摘要由CSDN通过智能技术生成

文章目录

1 安装selenium和webdriver

在Python路径下安装selenium，安装成功后还需安装相应浏览器的webdriver，不然无法控制浏览器，比如谷歌浏览器要下载chromedriver
在这里插入图片描述
进入官网 http://npm.taobao.org/mirrors/chromedriver/ ，红框中是浏览器版本相应的chromedriver，选择下载后，将压缩包解压

将文件复制到Python路径下的scripts中，不需要配置环境就可以写代码了

1.1 自动控制浏览器

用百度首页作为例子去控制浏览器

import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

url = "https://www.baidu.com/"

#创建一个浏览器
driver = webdriver.Chrome()
driver.get(url) #打开网页

search = driver.find_element_by_xpath('//*[@id="kw"]') #输入框节点
search.send_keys('贵州财经大学') #发送内容
search.send_keys(Keys.ENTER) #回车
# time.sleep(3) #等待网页加载
# search.find_element_by_id('su').click() #点击


time.sleep(5) #暂停5秒
driver.close() #关闭浏览器

运行结果：
在这里插入图片描述

2 正式爬取拉勾网

2.1控制浏览器，进入拉勾网

用selenium控制浏览器进入拉勾网，查询有关Python 爬虫的职位

import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

#拉勾网链接
url=" https://www.lagou.com/"

#创建浏览器，打开拉勾网链接
driver = webdriver.Chrome()
driver.get(url)

在这里插入图片描述
进入首页后，会跳转出一个选择城市分站的小窗口，对网页元素检查，按照图中标的顺序复制“全国站”的xpath路径，让浏览器自动点击

#自动点击全国站
driver.find_element_by_xpath('//*[@id="changeCityBox"]/p[1]/a').click()

选择好城市分站后，让浏览器自动在首页搜索框中输入Python 爬虫，对网页元素检查，按照图中箭头所指可找到搜索框 id，然后在搜索框中输入“Python 爬虫”
在这里插入图片描述

#搜索框
search = driver.find_element_by_id('search_input') 
#发送内容
search.send_keys('python 爬虫')

点击“搜索”，查询相关职位，用查找搜索框id的方式zhan查找“搜索”的id 在这里插入图片描述

#导入包
import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

#拉勾网链接
url=" https://www.lagou.com/"

#创建浏览器，打开拉勾网链接
driver