北上广深数据分析岗位的薪资对比

目录

一、数据介绍及预处理

1、数据介绍

2、数据预处理

二、数据分析

1、岗位数量、薪资水平统计

3、企业维度岗位数量

4、top薪资岗位

三、划重点

少走10年弯路


        之前跟大家分享过BOSS直聘上base北京的数据分析职位薪资数据分析,这次爬了北上广深四个城市的数据分析职位数据,本文简单对比分析拿给大家做参考。

一、数据介绍及预处理

1、数据介绍

        数据包括职位名称、base地点、薪资水平、经验及学历要求、招聘公司、行业、融资阶段、员工规模等 文末获取数据集

图片

2、数据预处理

(1)数据筛选

        由于BOSS直聘上搜索数据分析岗位的结果中,包含一些数据开发、需求分析等其他岗位,因此按照岗位名称是否包含数据分析/商业分析来做筛选

图片

图片

(2)数据分割提取

        在job_area中包括市、行政区、乡镇三级地址,tag_list中包含经验要求、学历要求,company_tag_list中包含行业、融资阶段、员工规模,所以结合split方法、正则表达式分别进行数据提取。

import re
def get_industry(string):
    try:
        result=re.findall('(.*?)[0-9].*[0-9].*',string)[0]
        l=['已上市','不需要融资','未融资','天使轮','A轮','B轮','C轮','D轮及以上']
        for s in l:
            result=result.replace(s,'')
        return result
    except:
        return None

def get_scale(string):
    try:
        result=re.findall('([0-9].*[0-9].*)',string)[0]
        l=['已上市','不需要融资','未融资','天使轮','A轮','B轮','C轮','D轮及以上']
        for s in l:
            if s in result:
                result=result.split(s)[1]
        return result
    except:
        return None
    
def data_pred(data):
    df=data[data.job_name.str.contains('数据分析')|data.job_name.str.contains('商业分析')|data.job_name.str.lower().str.contains('bi')].reset_index(drop=True).copy()
    df=df[~df.salary.str.contains('时')][~df.salary.str.contains('周')].reset_index(drop=True).copy()
    df['district']=df.job_area.str.split('·').str[1]
    df['town']=df.job_area.str.split('·').str[2]
    
    df['experience']=df.tag_list.str.split('\\n').str[0]
    df['education']=df.tag_list.str.split('\\n').str[1]
    
    df['industry']=df.company_tag_list.apply(get_industry)
#     df['scale']=df.company_tag_list.apply(lambda x:re.findall('([0-9].*[0-9].*)',x)).str[0]
    df['scale']=df.company_tag_list.apply(get_scale)
    
    df['base_salary']=df.salary.str.split('-').str[0]
    df.base_salary=df.base_salary.astype(float)
    df.loc[df.salary.str.contains('元/月'),'base_salary']=df.base_salary/1000  # 标准化工资单位为k
    return df

(3)薪资数据处理

        考虑到薪资待遇下限更贴近实际,因此提取左边界作为base_salary用于分析,此外发现大部分salary单位是k、但是还有部分为元,所以进行标准化处理、统一为k,对于部分时薪、周薪的兼职岗位直接剔除。

图片

二、数据分析

1、岗位数量、薪资水平统计

        按照经验要求进行分组统计岗位数量、薪资水平,对北上广深四个城市进行对比。从数据结果来看,北京上海薪资还是略高一些、并且对数据分析岗位的需求量也更大一些。

(1)北京

图片

图片

(2)上海

图片

图片

(3)广州

图片

图片

(4)深圳

图片

图片

3、企业维度岗位数量

        不同城市各企业招聘情况取决于企业职场地域分布,从招聘数量数据也可以看出部分企业(职能部门)办公地区的情况。

北京

图片

上海

图片

广州

图片

深圳

图片

4、top薪资岗位

        除个别极端例子外(如华为应届博士95k、广州市创星体育发展机构应届生50k),整体来看,北京和上海在平均薪资待遇和top待遇上都略高于广州和深圳,几千块的差异还是很明显的。

(1)应届生top薪资

图片

图片

图片

图片

(2)1-3年top薪资

图片

图片

图片

图片

三、划重点

少走10年弯路

        关注威信公众号 Python风控模型与数据分析,回复 北上广深数据分析 获取本篇数据及代码

        还有更多理论、代码分享等你来拿

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值