Boss直聘招聘数据分析岗位小分析

        嗨喽! 大家好,我是“流水不争先,争得滔滔不绝”的翀,18双非本科生一枚,正在努力!欢迎大家来交流学习,一起学习数据分析,希望我们一起好好学习,天天向上,目前是小社畜一枚~~

前言

完整数据包括一些简单的分析,做得很简单,因为累了要睡了
详细文档与数据下载超链接
在这里插入图片描述

import pandas as pd 
import matplotlib.pyplot as plt
import jieba
from collections import Counter
import pandas as pd 
from wordcloud import WordCloud

import warnings
warnings.filterwarnings("ignore")
data =pd.read_excel('./boss网站招聘岗位信息.xlsx',sheet_name='Sheet1')

1 数据探索

data.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2913 entries, 0 to 2912
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   标题      2913 non-null   object
 1   地区      2913 non-null   object
 2   公司名     2913 non-null   object
 3   公司领域    2913 non-null   object
 4   薪资      2913 non-null   object
 5   经验      2913 non-null   object
 6   规模      2913 non-null   object
 7   福利      2531 non-null   object
 8   详情页     2913 non-null   object
dtypes: object(9)
memory usage: 204.9+ KB
columns = data.columns
for i in columns:
    print('---------------------------'+i+'------------------------------')
    print(display(pd.DataFrame(data[i].value_counts())))
---------------------------标题------------------------------
标题
数据分析师162
大数据开发156
大数据开发工程师118
Python117
爬虫工程师106
......
Java开发工程师1
系统运维1
人工智能讲师(四川科技)1
【2022校招】数据分析1
AI 算子测试开发1

913 rows × 1 columns

None
---------------------------地区------------------------------
地区
深圳·南山区·科技园58
南京·江宁区·秣陵48
北京·海淀区·西北旺40
北京39
北京·朝阳区·望京37
......
深圳·南山区·南山中心1
武汉·洪山区·街道口1
无锡·梁溪区·上马墩1
抚州·金溪县·秀谷中大道1
杭州·滨江区·星光大道1

1209 rows × 1 columns

None
---------------------------公司名------------------------------
公司名
中软国际151
法本67
博彦科技53
软通动力信息技术集团37
神州信息18
......
吉灵科技1
河南日盛1
深度智耀1
北京千喜鹤公司1
无锡出类1

1936 rows × 1 columns

None
---------------------------公司领域------------------------------
公司领域
计算机软件893
互联网499
移动互联网186
数据服务154
电子商务120
......
婚庆/摄影1
装修装饰1
日化1
制药1
地产经纪/中介1

82 rows × 1 columns

None
---------------------------薪资------------------------------
薪资
10-15K147
8-13K72
5-10K71
4-6K57
15-30K53
......
22-44K1
7-11K·13薪1
400-600元/天1
15-18K·13薪1
70-80K1

483 rows × 1 columns

None
---------------------------经验------------------------------
经验
1-3年大专365
经验不限大专310
3-5年大专277
5-10年本科265
1-3年本科220
......
7天/周1个月本科1
4天/周2个月学历不限1
应届生硕士1
5-10年中专/中技1
3天/周6个月学历不限1

111 rows × 1 columns

None
---------------------------规模------------------------------
规模
10000人以上743
20-99人621
100-499人573
1000-9999人491
0-20人315
500-999人170
None
---------------------------福利------------------------------
福利
五险一金25
员工旅游,免费班车,五险一金,带薪年假,年终奖,餐补,节日福利,加班补助,定期体检,零食下午茶13
带薪年假,员工旅游,节日福利,零食下午茶,加班补助,免费班车,定期体检,五险一金,年终奖,餐补13
五险一金,加班补助,员工旅游,年终奖,免费班车,定期体检,餐补,节日福利,带薪年假,零食下午茶13
餐补,员工旅游,零食下午茶,五险一金,年终奖,定期体检,带薪年假,免费班车,节日福利,加班补助13
......
带薪年假,零食下午茶,通讯补贴,公司餐厅,年终奖,六险一金,定期体检,餐补,免费班车,节日福利,股票期权,交通补助1
员工旅游,加班福利,带薪年假,节日福利,定期体检,五险一金,餐补,入职五险一金1
定期体检,股票期权,带薪年假,五险一金,加班补助,交通补助,年终奖,餐补,节日福利1
团建基金,员工旅游,带薪年假,五险一金,年终奖,全勤奖,爱心点心,节日福利,零食下午茶,项目奖金1
补充医疗保险,内部竞聘,节日福利,带薪年假,员工旅游,餐补,加班补助,零食下午茶,免费班车1

2152 rows × 1 columns

None
---------------------------详情页------------------------------
详情页
https://www.zhipin.com/job_detail/4c25812b39e3b0321nx53925EFdW.html13
https://www.zhipin.com/job_detail/b53e88d4252d99b11nxy2Nm4FVJW.html13
https://www.zhipin.com/job_detail/67288b9757b2ef7303150928GFI~.html13
https://www.zhipin.com/job_detail/bfc8af865c7e41001nB82dy5EVBT.html13
https://www.zhipin.com/job_detail/6dd6a0d1e6234f2b1nx-2NS9FFBR.html13
......
https://www.zhipin.com/job_detail/344ea19ce102f33e1nF93N-_F1JR.html1
https://www.zhipin.com/job_detail/2778e16c9b3f31d01nJ53NS_GVRR.html1
https://www.zhipin.com/job_detail/80ccca15466fca951nF-3Ny_FVpS.html1
https://www.zhipin.com/job_detail/c484ae92e5af62ad1n142Ny_ElFQ.html1
https://www.zhipin.com/job_detail/0b2e0a2d249a171d1nJ-2dq4FlpS.html1

2595 rows × 1 columns

None

2 数据分析

guimo = pd.DataFrame(data['规模'].value_counts().reset_index())
guimo = guimo.rename(columns={'index':'规模','规模':'人数'})
plt.rcParams["font.family"] = 'Arial Unicode MS'
plt.bar(guimo['规模'], guimo['人数'])
plt.xlabel('规模')
plt.ylabel('人数')
x=np.arange(6) #课程品类数量已知为14,也可以用len(ppv3.index)
#设置y轴的数值,需将numbers列的数据先转化为数列,再转化为矩阵格式
y=np.array(list(guimo['人数']))
for a,b in zip(x,y):
    plt.text(a, b+0.05, '%.0f' % b, ha='center', va= 'bottom',fontsize=10)
plt.title('公司规模人数的直方图分布')
Text(0.5, 1.0, '公司规模人数的直方图分布')

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aoOz66NN-1641306756600)(output_7_1.png)]

  • 2分析数据分析的学历要求
data['学历'] = '天天开心'
xueli = ['大专以下','大专','本科','硕士','博士','学历不限']
c = Counter()
for i in range(len(data)):
    for j in xueli:
        if j in data['经验'][i]:
            c[j]+=1
xueli_data = pd.DataFrame([])
for (k,v) in c.most_common(5):# 输出词频最高的前500个词
    xueli_data = xueli_data.append(pd.DataFrame({"学历":[k], "数量":[v]}), ignore_index=True)
plt.rcParams["font.family"] = 'Arial Unicode MS'
plt.bar(xueli_data['学历'], xueli_data['数量'])
plt.xlabel('学历')
plt.ylabel('数量')
x=np.arange(5) #课程品类数量已知为14,也可以用len(ppv3.index)
#设置y轴的数值,需将numbers列的数据先转化为数列,再转化为矩阵格式
y=np.array(list(xueli_data['数量']))
for a,b in zip(x,y):
    plt.text(a, b+0.05, '%.0f' % b, ha='center', va= 'bottom',fontsize=10)
plt.title('数据分析学历要求的直方图分布')
Text(0.5, 1.0, '数据分析学历要求的直方图分布')

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oZ8R2oxG-1641306756602)(output_9_1.png)]

data['city'] = '天天开心'
for i in range(len(data)):
    data['city'][i] = data['地区'][i].split('·')[0]
city = pd.DataFrame(data['city'].value_counts().reset_index())
city = city.rename(columns={'index':'city','city':'数量'})[:10]
plt.rcParams["font.family"] = 'Arial Unicode MS'
plt.bar(city['city'], city['数量'])
plt.xlabel('city')
plt.ylabel('数量')
x=np.arange(10) #课程品类数量已知为14,也可以用len(ppv3.index)
#设置y轴的数值,需将numbers列的数据先转化为数列,再转化为矩阵格式
y=np.array(list(city['数量']))
for a,b in zip(x,y):
    plt.text(a, b+0.05, '%.0f' % b, ha='center', va= 'bottom',fontsize=12)
plt.title('数据分析公司城市的直方图分布')
Text(0.5, 1.0, '数据分析公司城市的直方图分布')

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-f0IdsWN7-1641306756604)(output_10_1.png)]

  • 4 词云图
def cal_word_freq(texts):
    words = []
    for text in texts:
        words.extend(list(jieba.cut(text)))
    return pd.Series(words).value_counts()
data['福利']=data['福利'].astype(str)
qieci = pd.DataFrame(cal_word_freq(data['福利'].to_list()).reset_index())
qieci = qieci.rename(columns={'index':'key_word','0':'词频'})[:50]
bimg = imread('heart.jpeg')
wordcloud = WordCloud(background_color="white", mask=bimg, font_path='simhei.ttf')
wordcloud = wordcloud.fit_words(words_stat.head(4000).itertuples(index=False))
bimgColors = ImageColorGenerator(bimg)
plt.axis("off")
plt.imshow(wordcloud.recolor(color_func=bimgColors))
plt.show()
qieci.to_excel('./词云.xlsx',index=False)
qieci
key_word0
019213
1五险2394
2一金2374
3带薪2159
42155
52154
6福利2134
7节日2091
8年终奖1995
9补助1971
10体检1788
11定期1782
12员工1546
13旅游1533
14零食1286
15下午茶1283
16餐补1259
17加班1106
18补充947
19医疗保险942
20交通877
21补贴770
22免费745
23股票725
24期权725
25通讯722
26班车671
27全勤奖662
28nan382
29包吃335
30住房补贴325
31企业78
32团建70
33文化68
34活动46
35健身房42
36生日33
37奖金27
38绩效奖金22
39双休21
40晚餐20
41培训20
42六险20
43项目19
44健身19
45朝九晚18
46包住18
4718
48提供18
49住宿17
city = pd.DataFrame(data['公司领域'].value_counts().reset_index())
city = city.rename(columns={'index':'公司领域','公司领域':'数量'})[:15]
plt.figure(figsize=(16, 6.5))
plt.rcParams["font.family"] = 'Arial Unicode MS'
plt.bar(city['公司领域'], city['数量'])
plt.xlabel('公司领域')
plt.ylabel('数量')
x=np.arange(15) #课程品类数量已知为14,也可以用len(ppv3.index)
#设置y轴的数值,需将numbers列的数据先转化为数列,再转化为矩阵格式
y=np.array(list(city['数量']))
for a,b in zip(x,y):
    plt.text(a, b+0.05, '%.0f' % b, ha='center', va= 'bottom',fontsize=12)
plt.title('数据分析公司领域的直方图分布')
Text(0.5, 1.0, '数据分析公司领域的直方图分布')

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0TLyTE3J-1641306756606)(output_15_1.png)]

总结

专栏学习

01 【数据分析实战项目】: 无人智能售货机商务分析线上课程智能推荐学术前沿趋势分析

02 【算法--数据挖掘】: 机器学习----吃瓜教程!集成学习深度学习 学术前沿趋势分析

03 【天池数据挖掘竞赛】: 心电信号多分类分类新闻推荐入门赛系统项目

04 【Python数据分析】: Numpy 数值计算基础Matplotlib 数据可视化基础Pandas 统计分析基础Pandas 进行数据预处理scikit-learn 构建模型

往期精彩内容

01 【常见的数据分析师的面试问题】: 基础知识考查、概率论与数理统计、数据挖掘、常见模型介绍、数据分析师工作必备技能等等

02 【基于条件随机场模型的中文分词】: 中文分析、python代码实现

03 【 Github开源项目】: Github开源项目 数分/数挖学习路线

       欢迎关注我,一起交流学习探索数据分析的世界,洞察数据!努力接受社会毒打~~

@翀- 我的博客主页

  • 2
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
项目介绍 该项目选用了和鲸社区关于数据分析岗位的数据集来进行分析。项目主要使用“job.csv”文件作为数据源,其中数据文件的主要栏位有职位、城市、公司、薪资、学历、工作经验、行业标签。其中本项目所使用的可计算的栏位为最低薪资、最高薪资、平均薪资、奖金率。 本项目所使用的可分类的栏位为职位、城市、学历、工作经验、行业标签。通过对数据进行清洗重塑和分析,再使用plotly等工具进行绘图,实现图表的交互式数据可视化,最后使用flask框架(利用了bootstrap)进行网页上的可视化展示。最后展示了关于数据分析岗位的人才需求分布情况、薪资情况以及发展前景。 项目来源:选用boss直聘网站的数据分析职位的招聘数据 数据结果总结 通过以上分析,可以发现,如果要成功进入数据分析行业,应该往北上广深行这几个城市考虑,这些城市的薪资水平高。 而行业方面应该着眼于互联网及电子商务等新兴行业,这些行业对该岗位的需求都比较大,而且薪资水平也普遍高。 该岗位对学历的门槛并不是很高,从市场需求来看,要求硕士的较少,而博士则是凤毛麟角。本科是一个分水岭。是否是本科,对薪资水平的影响还是很大的 不过这也从侧面反映了社会上学历的分布状况,本科生及大专生占绝对多数。 虽然市场需求量大,但是本科生就业压力也很大 工作经验对于该岗位而言非常重要,能否成功进入数据分析行业的关键门槛在于是否有工作经验,与薪资水平呈正相关。 而成功进入数据分析行业以后,只有在迈过3年这个坎,才会有比较大的突破。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据闲逛人

谢谢大嘎喔~ 开心就好

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值