前程无忧数据分析招聘信息分析

一、数据获取

不得不说,前程无忧几乎没有反爬虫机制,我写了一个很简陋的爬虫代码就爬了约900条数据下来。这次分析的目的是了解目前市场对数据分析人才的工作经验要求和学历要求分布是怎样的,以及不同工作经验和学历的薪资区别。爬取的数据主要有岗位名称,发布公司,工作经验要求,学历要求和薪资待遇。先通过爬虫将岗位信息储存到一个txt文件中,然后再导入到excel中,数据结构如图。



二、数据清洗

刚爬下来的数据错误不少,所以对数据进行筛选清洗,以进行下一步分析工作。

首先是公司列和岗位列,这两列不用管,因为不是主要分析数据,主要用于标识每个岗位。

然后是薪资列,可以看到数据格式有的是千/月,有的是万/月,还有万/年的,还有些是错误数据。现在要将薪资列统一为千/月


先处理错误的薪资数据,如果无法整理就选择删除,然后通过使用分列工具根据符号"-"进行分列,再通过excel的文本函数left,len将原薪资列分成下限和上限两列。


最后使用if函数将万/月和万/年的薪资转为千/月,并根据上限和下限的均值求出各岗位的平均薪资。


接下来处理工作经验列,这列共分为六个类,如图所示,这里将1年和2年的数据合并起来,并将多余的经验两个字去掉,通过if函数实现。

——>

下面处理的是学历要求列,在爬取学历要求信息时,我发现有部分岗位将学历要求写在任职要求处,而不是岗位简述处,导致部分岗位的学历要求难以采集,此处选择舍弃那些没有采集到学历要求的数据。学历分类如图所示,通过if函数将分类修改为四类:大专以下,大专,本科,硕士。

——>

最后删除掉数据中的重复值即可。

至此数据清理部分就完成了,经过清洗,数据还剩697条。


三、数据分析

1、经验与薪资间的关系


经验在1-2年和无工作经验的平均薪资相近,有7K多一点,3-4年工作经验的平均薪资有11.5K,相比前两个提升幅度有50%以上,5-7年的平均薪资有17.3K,相比前者提升也有50%左右,8-9年经验平均薪资21.3K,相比发前者提升23%。由此可见,随着工作经验的增长,对薪资的提升幅度还是非常可观的。

再来看一看经验的岗位人数分布


可以看到,需求量最大的是工作经验在1-2年之间的人,占比达到了42.04%,其次是无工作经验的,占33.57%,再次是3-4年工作经验的人,占19.66%,5-7年和8-9年的占比很少,两者加起来占比不到5%,可见在数据分析这个新兴的行业里,经验丰富的人相对还是较少的。

2、学历与薪资间的关系


大专和大专以下学历的平均薪资相近,都是7K左右,本科达到了10.7K,相比前者提升幅度有50%,硕士的薪资13K,相比前者提升了20%多点,由此可见,更高的学历可以达到更高的薪资。

下面是学历的岗位人数分布


目前岗位要求最多的是大专和本科学历,占比分别为44.33%和42.47%,硕士最少,只占1.43%,说明这个行业的高端人才还是比较稀缺的。


3、薪资分布情况


爬取的岗位中,薪资在3-8K的最多,有413个,占总的59.25%,其次是8-13K,有189个,占27.12%,再次是13-18K,有63个,占9.04%。其他超高薪资的岗位数量很少,全部加起来占比还不到4%。


四、结论

根据上面的分析,可以得到以下结论。

1、学历越高,工作经验越丰富,薪资越高。

2、爬取的岗位中,要求1-2年经验和无经验的岗位最多,说明数据分析行业还是一个新型的行业,经验丰富的专家不多。

3、学历要求方面,大专和本科的需求量最大,大概是目前行业的基础岗位比较多的原因。


关于本次分析的不足之处。

1、数据较少,只有697条,仅分析了广州地区,不能很好地展示国内目前数据分析行业的现状。

2、数据处理手法比较粗糙,简单地用薪资范围的均值来表示该岗位的薪资,另外也没有考虑某些极端值对数据分析的影响,与实际结果有一定的差距。




阅读更多
个人分类: 数据分析
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭
关闭