基于拉勾网数据的爬取与分析

1.确定目标网站

  • 目标网站的URL为:https://www.lagou.com/zhaopin/python/filterOption=3&sid=99132d4b071a4952a73374db9065626f

  • 在谷歌浏览器的地址栏中输入URL后看到如图4-1所示的关于互联网板块的招聘信息页面:

在这里插入图片描述

  • 确定爬取页面信息的字段为:公司名称、公司简称、城市、公司规模、学历要求、工作经验、薪资、融资阶段、工作性质、职位诱惑、职位名称、公司福利,一共12个字段的信息

2.静态网页的爬取

因为拉钩网的反爬虫策略,这里采用静态网页的爬取,爬取数据下来后再进行数据的分析,这里模拟了浏览器的请求,来进行攻破拉钩网的反爬虫策略。在这里插入图片描述
3.源数据的获取

这里先将2中的静态网页读取进来,然后分析网页结构后发现,可以使用正则进行数据的获取。在这里插入图片描述
在这里插入图片描述
4.数据的持久化存储

这里使用csv库来存储获取好的数据,首先写入表头,然后将正则获取的数据进行循环,来保存想要的数据放到csv文件中
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

将数据存入到mongodb中,如图4-7所示。

1.导入数据

爬虫爬取的数据是不能够直接使用,进行可视化的,因为各种原因,爬取到的数据会有缺失值和异常值,这里就需要来进一步处理数据,将的数据进行清洗 ,这里使用numpy,pandas库等进行数据的清洗。
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

2.缺失值的处理

在这里插入图片描述

删除后缺失值后重新查看源数据,如图5-5可以看出数据从1638条变成了1282条,查看各列数据可以看出已无缺失值。
在这里插入图片描述

因为删除了缺失的数据,但是在源数据中的索引也空出来了,中间会有断层,为了下面数据的可视化在这里进行重置索引。
在这里插入图片描述

查看所获取的数据中有多少个城市如图5-7所示。
在这里插入图片描述
在薪资的后面新增列名为:平均薪资,并通过循环写入到源数据中。
在这里插入图片描述
在这里插入图片描述

按照城市进行分组, 查看平均薪资的平均值和标准差。
在这里插入图片描述

通过图5-9可以看出个别城市的标准差有缺失,经过分析得出原来是因为个别城市的数据数量太少达不到计算标准差的要求,这里将缺失的数据进行删除。
在这里插入图片描述
在这里插入图片描述

删除个别城市的数据后,重置索引,重新查看城市如图5-11所示,并重新进行城市的分组,并持久化存储清洗后的数据。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

根据图5-12把城市进行分组及计算平均薪资,可得出直方图,如图6-1所示,从图中可以看出北京、上海、广州、深圳这四个城市的平均工资在全国来说是屈指可数的。

在这里插入图片描述

从图6-2中可以看出,绩效奖金、带薪年假、岗位晋升、五险一金等词语出现频繁是互联网企业招聘中的热词。

从图6-3中可以看出,pyhon开发工程师、大数据开发工程师、HR等职位出现频繁是互联网企业招聘中比较热门的职位。
在这里插入图片描述
在这里插入图片描述

从图6-4中可以看出HR、PYTHON、php、数据挖掘、机器学习、算法、node。Js这是研究方向相对来说需求较大,如果想去找单位工作,可以考虑从这些职位的要求上着手考虑和准备。
在这里插入图片描述

从图6-5中可以发现,上千条数据中招聘的学历要求主要还是集中在本科生中,对于高学历要求的公司相对较少,虽然这里没有细分,但是有一个好的学历绝对是有力的敲门砖。但是也可以看到硕士、博士的要求量并不多,或许只是某些特殊要求的岗位才会有需求。

有一个本科学历,一般的招聘都能足够了。当然大专、不限在这里也可以看到需求量也是很大的,在这里猜想一下,或许现在的很多公司都以能力作为了一个重要的指标,但坚信有能力的人不怕没有好工作。
在这里插入图片描述

从图6-6中可以看出HR、python开发工程师、大数据开发工程师等岗位相对来说需求较大,如果想去找单位工作,可以考虑从这些职位的要求上着手考虑和准备。
在这里插入图片描述

对于找工作来说最重要的就是各个城市对于岗位的需求量。需求量越大的城市必然经济越发达,机遇也越多,对于自身的发展空间相对越有利,也就是日后的发展方向。

从图6-7中可以看出,招聘人数最多的地方,主要分布在深圳市和北京市和上海市,由此可以看出北京、上海、广东互联网普及率全国最高,中国互联网行业的格局还是在北上广这些综合实力很强的城市。虽然后续的几个城市的需求量处于中等,但也能提供一个比较好的起步阶段。
在这里插入图片描述

最后把所有的可视化数据放到一个页面中,进行可视化大屏的展示,至此,数据可视化的工作已全部完成。
在这里插入图片描述

  • 3
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
WebMagic是Java语言编写的一款爬虫框架,它基于Jsoup解析器实现,可以轻松地爬取各种站上的数据。下面是使用WebMagic爬取拉勾招聘数据的方法: 1. 首先,需要导入WebMagic相关的依赖包,可以在pom.xml文件中添加以下代码: ``` <dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-core</artifactId> <version>0.7.3</version> </dependency> <dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-extension</artifactId> <version>0.7.3</version> </dependency> <dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-selenium</artifactId> <version>0.7.3</version> </dependency> <dependency> <groupId>org.seleniumhq.selenium</groupId> <artifactId>selenium-firefox-driver</artifactId> <version>2.53.1</version> </dependency> ``` 2. 创建一个Java类,用于定义需要爬取数据结构。例如,我们可以定义一个Job类,用于存储招聘信息: ``` public class Job { private String name; //职位名称 private String salary; //薪资范围 private String company; //公司名称 private String location; //工作地点 private String experience; //工作经验要求 private String education; //学历要求 private String label; //职位标签 //省略setter和getter方法 } ``` 3. 创建一个实现PageProcessor接口的Java类,用于定义爬虫的逻辑。例如,我们可以定义一个LaGouProcessor类,用于爬取拉勾的招聘信息: ``` public class LaGouProcessor implements PageProcessor { private Site site = Site.me() .setRetryTimes(3) //重试次数 .setSleepTime(1000) //访问间隔 .setUserAgent(UserAgentUtil.getRandomUserAgent()); //随机User-Agent @Override public void process(Page page) { List<Job> jobList = new ArrayList<>(); List<String> jobUrls = page.getHtml().links().regex("https://www.lagou.com/jobs/\\d+.html").all(); for (String jobUrl : jobUrls) { page.addTargetRequest(jobUrl); //添加详情页链接到抓取队列 } if (page.getUrl().regex("https://www.lagou.com/jobs/\\d+.html").match()) { //详情页 Job job = new Job(); job.setName(page.getHtml().xpath("//div[@class='job-name']/span/text()").get()); job.setSalary(page.getHtml().xpath("//dd[@class='job_request']/h3/span[1]/text()").get()); job.setCompany(page.getHtml().xpath("//div[@class='company']/text()").get()); job.setLocation(page.getHtml().xpath("//dd[@class='job_request']/p/span[2]/text()").get()); job.setExperience(page.getHtml().xpath("//dd[@class='job_request']/p/span[3]/text()").get()); job.setEducation(page.getHtml().xpath("//dd[@class='job_request']/p/span[4]/text()").get()); job.setLabel(StringUtils.join(page.getHtml().xpath("//dd[@class='job_request']/ul/li/span/text()") .all(), ",")); //多个标签以逗号分隔 jobList.add(job); } page.putField("jobList", jobList); } @Override public Site getSite() { return site; } } ``` 4. 在main方法中,创建一个Spider对象,并设置需要爬取的初始链接、定义的PageProcessor对象和线程数等参数。例如,我们可以设置以下参数: ``` public static void main(String[] args) { Spider.create(new LaGouProcessor()) .addUrl("https://www.lagou.com/zhaopin/Java/?labelWords=label") .thread(5) .run(); } ``` 5. 运行程序,即可爬取拉勾的招聘信息。可以通过page.putField方法将爬取到的数据存储到Map中,然后可以将Map写入文件或者数据库中。 ``` public static void main(String[] args) { Spider.create(new LaGouProcessor()) .addUrl("https://www.lagou.com/zhaopin/Java/?labelWords=label") .thread(5) .run(); } ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值