selenium爬取拉勾网

本文介绍了如何利用Python的selenium库爬取拉勾网的Python爬虫职位信息。首先,安装selenium和对应浏览器的webdriver,接着控制浏览器自动填写搜索条件并点击搜索。然后,解析页面提取职位和薪资信息,并实现翻页爬取。最后,将爬取到的数据写入csv文件。
摘要由CSDN通过智能技术生成

1 安装selenium和webdriver

在Python路径下安装selenium,安装成功后还需安装相应浏览器的webdriver,不然无法控制浏览器,比如谷歌浏览器要下载chromedriver
在这里插入图片描述
进入官网 http://npm.taobao.org/mirrors/chromedriver/ ,红框中是浏览器版本相应的chromedriver,选择下载后,将压缩包解压
在这里插入图片描述
将文件复制到Python路径下的scripts中,不需要配置环境就可以写代码了
在这里插入图片描述

1.1 自动控制浏览器

用百度首页作为例子去控制浏览器

import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

url = "https://www.baidu.com/"

#创建一个浏览器
driver = webdriver.Chrome()
driver.get(url) #打开网页

search = driver.find_element_by_xpath('//*[@id="kw"]') #输入框节点
search.send_keys('贵州财经大学') #发送内容
search.send_keys(Keys.ENTER) #回车
# time.sleep(3) #等待网页加载
# search.find_element_by_id('su').click() #点击


time.sleep(5) #暂停5秒
driver.close() #关闭浏览器

运行结果:
在这里插入图片描述

2 正式爬取拉勾网

2.1控制浏览器,进入拉勾网

用selenium控制浏览器进入拉勾网,查询有关Python 爬虫的职位

import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

#拉勾网链接
url=" https://www.lagou.com/"

#创建浏览器,打开拉勾网链接
driver = webdriver.Chrome()
driver.get(url)

在这里插入图片描述
进入首页后,会跳转出一个选择城市分站的小窗口,对网页元素检查,按照图中标的顺序复制“全国站”的xpath路径,让浏览器自动点击
在这里插入图片描述

#自动点击全国站
driver.find_element_by_xpath('//*[@id="changeCityBox"]/p[1]/a').click()

选择好城市分站后,让浏览器自动在首页搜索框中输入Python 爬虫,对网页元素检查,按照图中箭头所指可找到搜索框 id,然后在搜索框中输入“Python 爬虫”
在这里插入图片描述

#搜索框
search = driver.find_element_by_id('search_input') 
#发送内容
search.send_keys('python 爬虫') 

点击“搜索”,查询相关职位,用查找搜索框id的方式zhan查找“搜索”的id在这里插入图片描述

#导入包
import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

#拉勾网链接
url=" https://www.lagou.com/"

#创建浏览器,打开拉勾网链接
driver 
WebMagic是Java语言编写的一款爬虫框架,它基于Jsoup解析器实现,可以轻松地爬取各种站上的数据。下面是使用WebMagic爬取拉勾招聘数据的方法: 1. 首先,需要导入WebMagic相关的依赖包,可以在pom.xml文件中添加以下代码: ``` <dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-core</artifactId> <version>0.7.3</version> </dependency> <dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-extension</artifactId> <version>0.7.3</version> </dependency> <dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-selenium</artifactId> <version>0.7.3</version> </dependency> <dependency> <groupId>org.seleniumhq.selenium</groupId> <artifactId>selenium-firefox-driver</artifactId> <version>2.53.1</version> </dependency> ``` 2. 创建一个Java类,用于定义需要爬取的数据结构。例如,我们可以定义一个Job类,用于存储招聘信息: ``` public class Job { private String name; //职位名称 private String salary; //薪资范围 private String company; //公司名称 private String location; //工作地点 private String experience; //工作经验要求 private String education; //学历要求 private String label; //职位标签 //省略setter和getter方法 } ``` 3. 创建一个实现PageProcessor接口的Java类,用于定义爬虫的逻辑。例如,我们可以定义一个LaGouProcessor类,用于爬取拉勾的招聘信息: ``` public class LaGouProcessor implements PageProcessor { private Site site = Site.me() .setRetryTimes(3) //重试次数 .setSleepTime(1000) //访问间隔 .setUserAgent(UserAgentUtil.getRandomUserAgent()); //随机User-Agent @Override public void process(Page page) { List<Job> jobList = new ArrayList<>(); List<String> jobUrls = page.getHtml().links().regex("https://www.lagou.com/jobs/\\d+.html").all(); for (String jobUrl : jobUrls) { page.addTargetRequest(jobUrl); //添加详情页链接到抓取队列 } if (page.getUrl().regex("https://www.lagou.com/jobs/\\d+.html").match()) { //详情页 Job job = new Job(); job.setName(page.getHtml().xpath("//div[@class='job-name']/span/text()").get()); job.setSalary(page.getHtml().xpath("//dd[@class='job_request']/h3/span[1]/text()").get()); job.setCompany(page.getHtml().xpath("//div[@class='company']/text()").get()); job.setLocation(page.getHtml().xpath("//dd[@class='job_request']/p/span[2]/text()").get()); job.setExperience(page.getHtml().xpath("//dd[@class='job_request']/p/span[3]/text()").get()); job.setEducation(page.getHtml().xpath("//dd[@class='job_request']/p/span[4]/text()").get()); job.setLabel(StringUtils.join(page.getHtml().xpath("//dd[@class='job_request']/ul/li/span/text()") .all(), ",")); //多个标签以逗号分隔 jobList.add(job); } page.putField("jobList", jobList); } @Override public Site getSite() { return site; } } ``` 4. 在main方法中,创建一个Spider对象,并设置需要爬取的初始链接、定义的PageProcessor对象和线程数等参数。例如,我们可以设置以下参数: ``` public static void main(String[] args) { Spider.create(new LaGouProcessor()) .addUrl("https://www.lagou.com/zhaopin/Java/?labelWords=label") .thread(5) .run(); } ``` 5. 运行程序,即可爬取拉勾的招聘信息。可以通过page.putField方法将爬取到的数据存储到Map中,然后可以将Map写入文件或者数据库中。 ``` public static void main(String[] args) { Spider.create(new LaGouProcessor()) .addUrl("https://www.lagou.com/zhaopin/Java/?labelWords=label") .thread(5) .run(); } ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值