如今每个行业都开始注重数据的利用,比如电商类公司数据洞察客户的行为及偏好以便精准营销,金融类企业需要利用数据构建反欺诈模型等等。所以对于数据分析类的工作需求也相应增加,所以便产生了需求,我想知道数据分析类职位在哪些地区有招聘,行业分布是怎样的,薪酬如何,对于应聘者的技能又有什么样的要求,所以便用后羿采集器爬取了拉勾的职位信息简要分析一下。
分析大纲如下
- 地区分布情况,不同地区不同行业如何
- 不同行业的需求量
- 公司规模分布
- 薪酬分布,高端职位分布,不同地区薪酬分布
- 经验要求如何
- 学历要求
- 技能要求
- 需求公司的福利待遇怎样
**
数据获取
**
使用后羿采集器爬取拉勾网职位信息,之所以用后羿而不用python一来对于爬虫目前还不是很熟悉,即使使用别人的轮子依然需要补习,二来数据量并不大后羿完全胜任且快速简单,爬完发现数据少的可怜,仅有450条信息。
**
数据清洗
**
由于数据量非常少,直接用Excel打开进行数据清理,信息字段主要有以下几类:
- 地区
- 职位名称
- 薪酬
- 经验/学历要求
- 公司名称
- 公司所处行业
- 公司规模
- 福利
- 技能要求
- 岗位职责
爬取的数据很干净,只需要将薪酬拆分即可,转为两列最低薪酬及最高薪酬,再取两者的平均值作为平均薪酬,接下来分拆经验、学历为两列,这部分很快处理完成
**
数据分析
**
这里采用Tableau进行分析,因为可视化这块还是比Excel给力一些
首先是分析招聘职位的地区分布情况,结果显示排名前三位依次为北上深一线城市,其中北京职位需求遥遥领先,痛心的是一线广州需求量比杭州还要低,再其次就是强二线西上海成都,其他地区都少得可怜。另外无论是职位数量还是平均薪资都是天子脚下最高
那么每个地区需求的数据分析类职位的行业分布是怎样的呢?如下图,结果显示北上广深杭成全部都是金融行业需求最多,其次是移动互联网,不过这些结果和我们的实际认知是一致的,不算稀奇,当然这里行业划分其实很不规范,有些是按照主营类型写的,不算标准行业类型,比如北京需求量甚高的文娱内容其中不乏移动互联网的也说不定,所以行业需求量仅限参考,给到一个大致择业方向
下面来看看总的各行业职位分布情况及简要工资情况,结果毫无疑问是金融行业,且高工资分布基本都在金融,其次是移动互联网
招聘此岗位的公司都是怎样的规模?需求量最大的是2000人以上的大公司占比35.1%,其次是150-500人的中小型企业
说到薪酬部分了,这部分也是大多数人关心的问题,这里用平均工资来显示,平均薪酬为18K/月,只有北上深提供了较高的平均薪资
再来看看最低起薪的情况,北京依然是起薪分布最高的的地区,其次为上海、深圳、杭州、广州
这些岗位都有哪些经验要求?大部分都是要求3-5年经验其次是1-3年。两者占比77%,说明绝大多数企业都是至少要有经验,说明没有经验的确实很难过关
再来看看学历要求,本科乃是保底线,硕士以上的要求仅占4.2%
公司在招聘时都有哪些福利展示,这里利用词云展示
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import wordcloud
from wordcloud import STOPWORDS
import jieba
from scipy.misc import imread
import re
pd.set_option('display.max_columns',20)
data=pd.read_excel('/Users/shaling/Downloads/拉勾的数据.xlsx',sheet_name='Sheet2')
print(data.head())
print(data.keys())
txt=''.join(i for i in data['福利'])
mask=imread('/Users/shaling/Desktop/1.jpg')
w1=wordcloud.WordCloud(font_path='PingFang.ttc',background_color='white',mask=mask)
w1.generate(" ".join(jieba.lcut(txt)))
plt.imshow(w1)
plt.show()
所要求的技能:机器学习,建模,数据统计学,撰写报告,python,SQL,Excel,Tableau等
结论就是:
1、该岗位需求量大都聚集在北上广深杭几个城市
2、该岗位需求量较大的行业是金融行业,公司大都是中大型企业
3、该岗位薪酬较高,高薪聚集在金融行业