Joffy Zhong:咨询顾问 | 写作爱好者 | 数据分析 | 互联网创业者 R语言中文社区专栏作者
知乎ID:https://www.zhihu.com/people/joffy/posts
往期回顾:
项目背景
在学习数据分析的路上,少不了经常逛知乎,这也是我第一篇在知乎上的文章,写这篇文章的启发来源于@BigCarrey 的一篇文章《数据分析师挣多少钱?“黑”了招聘网站告诉你!》(https://zhuanlan.zhihu.com/p/25704059),该文章给了我一些帮助,让我了解了数据分析岗位相关的信息,但同样也留给我一些疑问,该文章分析的数据分析师所需技能的结果丝毫没有R的踪影,尽管是一年前的分析,我觉得应该不可能不存在。
因此,抱着证实R语言这款工具的想法,以及希望了解当前企业对数据分析岗位的需求,开始了一次针对招聘网站的数据分析岗位招聘数据的分析与挖掘实践,避免自己所学习的方向与企业实际需求脱轨。
此实例采用R语言作为分析工具,下面展现的是我整个分析过程。
目标
了解企业当前需要什么样的数据分析人才,以及应该具备的能力和素质。
分析的结果为今后的学习和求职提供指导,也为正在学习数据分析和找工作的朋友们提供一定的参考价值。
问题的分解
不同地区,数据分析岗位的需求分布以及对应的薪资分布
不同经验,数据分析岗位的需求分布以及对应的薪资分布
不同学历,数据分析岗位的需求分布以及对应的薪资分布
不同企业规模,数据分析岗位的需求分布以及对应的薪资分布
探索数据分析岗位对应的工具型技能与对应的薪资水平
探索数据分析岗位对应非工具型能力的需求
数据集的定义
表1:数据分析岗位信息表
表2:数据分析岗位技能关键词表
数据获取
数据来源:拉勾网
数据范围:互联网行业、数据分析岗位
数据集:全国数据分析岗位招聘信息数据集(采集样本量:449)
工具:爬虫
时间:所有数据截止2018年3月12日
数据集下载地址:
链接:https://pan.baidu.com/s/1Bz7mA_dnvD1MGTVrZKyhPA
密码:layp
数据处理
步骤1:加载原始数据
#readxl包的read_excel函数
library(readxl)
#数据加载
CN.df <- read_excel("CN_lagou_jobdata.xlsx",1)
CN.df <- CN.df[,c("title","salary","experience","education",
"campany","scale","scale2","description","phase","city")]
#观察数据,分类变量不是因子的格式,且存在不需要的字符
str(CN.df)
步骤2:识别缺失值
#VIM包的aggr函数来识别
library(VIM)
aggr(CN.df,prop=TRUE,numbers=TRUE)