如今每个行业都开始注重数据的利用,比如电商类公司数据洞察客户的行为及偏好以便精准营销,金融类企业需要利用数据构建反欺诈模型等等。所以对于数据分析类的工作需求也相应增加,所以便产生了需求,我想知道数据分析类职位在哪些地区有招聘,行业分布是怎样的,薪酬如何,对于应聘者的技能又有什么样的要求,所以便用后羿采集器爬取了拉勾的职位信息简要分析一下。
分析大纲如下
- 地区分布情况,不同地区不同行业如何
- 不同行业的需求量
- 公司规模分布
- 薪酬分布,高端职位分布,不同地区薪酬分布
- 经验要求如何
- 学历要求
- 技能要求
- 需求公司的福利待遇怎样
**
数据获取
**
使用后羿采集器爬取拉勾网职位信息,之所以用后羿而不用python一来对于爬虫目前还不是很熟悉,即使使用别人的轮子依然需要补习,二来数据量并不大后羿完全胜任且快速简单,爬完发现数据少的可怜,仅有450条信息。
**
数据清洗
**
由于数据量非常少,直接用Excel打开进行数据清理,信息字段主要有以下几类:
- 地区
- 职位名称
- 薪酬
- 经验/学历要求
- 公司名称
- 公司所处行业
- 公司规模
- 福利
- 技能要求
- 岗位职责
爬取的数据很干净,只需要将薪酬拆分即可,转为两列最低薪酬及最高薪酬,再取两者的平均值作为平均薪酬,接下来分拆经验、学历为两列,这部分很快处理完成