前言
近几年来,大数据、人工智能、云计算概念如火如荼,而数据分析作为大数据和人工智能领域必备的职能之一,在人才市场上需求越来越强劲。
那,数据分析职位,一般在哪些城市需求较多,各城市分布情况如何?需要哪些技能?适用于企业哪些业务哪些职能?薪酬竞争力如何?集中在哪些行业需求较多?
接下来,以2019.4.23拉勾网最新发布职位数据为例,一窥数据分析职位现状。
一、研究问题
1、全国数据分析岗位的需求主要分布在哪些区域、行业?
2、数据分析师对经验、学历的要求如何?
3、数据分析的薪酬分布情况如何?
4、哪些企业存在较为高级的数据分析师需求?
5、职位所需关键技能有哪些?适用企业哪些职能(eg产品/借贷/风控/运营等)?
二、数据收集
爬虫工具:后羿采集器
数据来源:拉勾网(285条)
筛选依据:城市-全国,搜索项-数据分析
采集时间:2019年4月23日
三、数据清洗
拉勾网采集的数据比较完整,需要补充和清洗的地方不多。这里简单记录一下数据清洗的过程。 主要涉及到的操作有分列、替换、筛选、删除,以及一些公式,如mid、SUBSTITUTE等,比较简单,如果遇到难题可以先尝试Google/Baidu搜索。
下面进入具体的操作步骤—— (注:刚刚对“数据分析”职位数据处理过程没有截图留存,现在用另一份“数据”职位来操作说明。)
1、分列:将聚集到同一个单元格的薪资、工作年限、学历多项信息分开。
此处以 li_b_1列 “20k-30k 经验1-3年/本科” 为例,其他列(例如industry)则简单一些,直接使用“数据-分列-特殊符号”即可。
(1)使用SUBSTITUTE公式先将 li_b_1列单元格内换行符替换成普通符号“/”: =SUBSTITUTE(A1,CHAR(10),"/") ——注:char(10)表示换行符的意思。 在这里插入图片描述 (2)将带有公式的 li_b_1列通过“复制-粘贴值”的形式,将公式转换成本文值格式,以便下一步分列。 在这里插入图片描述
(3)通过特殊符号“/”和“空格”分列(“Tab键”是默认勾选,留着无伤大雅)。 如下图,看数据预览界面,已成功分列。 在这里插入图片描述 (4)其他列例如“industry”比较简单,直接用特殊符号分列即可,无需做其他处理措施。只是该列特殊符号有“空格”和“、”和“/”,需要进行三次分列,然后通过筛选,把三次分列结果汇总。此处不过多赘述,有疑问可以留言。
2、提取城市名称,以便分析城市间职位差异。 使用mid公式: 在这里插入图片描述
3、将薪资范围转换成具体数字,以便后续数据透视及可视化。 (1)先通过特殊符号“-”分列,得到最低薪酬和最高薪酬。此时薪酬数字后边带了“k”。 在这里插入图片描述 (2)选中最低薪酬和最高薪酬两列,通过CTRL+H 打开替换窗口,将“k”替换成空值。 在这里插入图片描述 替换后效果如下: 在这里插入图片描述
4、将公司规模按照人数从少到多,分别加上abcde标志,方便后