一、背景
政治(Politics):目前全国有二十多各地区出台了大数据相关的政策,而且很多地区都设立了专门的大数据管理机构。
经济(Economy):据相关数据统计显示,中国大数据产业受宏观政策环境、技术进步与升级、数字应用普及等众多利好因素影响,2018年整体规模达到4384.5亿元,较2017年同比增长24%,预计到2020年规模将达到6605.8亿元。
社会(Society):数据分析师几乎覆盖了所有的行业,从数据类公司、咨询公司到物流、传媒公司等,无一不渗透着数据分析的内容。在被视为“数据元年”的今天,数据分析师曾被Times时代杂志誉为“21世纪最热门五大新兴行业”,国内数据分析行业专业人才每年以千位数非速增长着,未来中国对数据分析师的需求更是呈井喷之势。
技术(Technology):一些已经较为成熟的数据分析处理技术,例如商业智能技术和数据挖掘技术,已经在多个行业领域里得到广泛和深入的应用。但对于像Hadoop、非结构化数据库、数据可视化工具以及个性化推荐引擎这样的新技术,其较高的技术门槛和高昂的运营维护成本使得国内只有少数企业能够将其运用到深入分析行业数据中。
二、理解项目、提出问题
项目描述:对国内数据分析岗位的人才需求进行大致了解,分析招聘网站上和数据分析相关的职位信息,确定需要分析的指标,提出如下问题:
- 哪些城市对数据分析师职位的需求量比较大,统计不同城市的职位数量;
- 数据分析师总体薪资情况,以及不同城市的平均薪资对比;
- 找到数据分析师工作需要的工作年限、学历;
- 哪些行业招聘数据分析师,统计不同行业的职位数量。
利用爬虫技术从招聘网站上爬取数据,保存到Excel表格。
链接:https://pan.baidu.com/s/1qkCgMPsV9JhUcH_r33459A
提取码:jeji
附上数据集,该数据是2020年3月29日从“前程无忧”网站上检索出来的结果,检索词为数据分析师(全文)。
三、清洗数据
1.选择子集
在Excel表格的所有字段中“标题链接”对分析问题的意义不大,可以选择隐藏。需要用的字段有职位名称、公司名称、工作地点、薪资、工作年限学历人数、工作职责、职能类别、关键字、公司性质、公司规模、行业。
2.一致化
(1)职位名称
职位名称字段的在数据集中的格式各异,该字段的数据项除了职位名称,还有很多多余的描述,例如职位ID、薪酬和待遇的描述、有关职责内容的相关标记,给数据一致性带来了很大不便。
总之考虑到以下原因,决定不从职位名称维度做分析:一各公司的职位名称以及职位ID本身就各不相同,基本上不可能做到一致;二职位名称包含的信息具有迷惑性,有可能职位名称和岗位