分析数据分析实习岗位信息(2、数据分析+词云)


代码链接:https://github.com/guotianyi960531/shixiseng_Dataget

1. 从mysql获取之前抓取的数据,并存为csv

从数据库提取信息,保存为csv,便于后续操作。

2. 读取数据

读取csv,自定义表的列名。
在这里插入图片描述

3. 部分数据反了

通过观察,在抓取数据的时候,每周工作时长与实习期有部分的数据反了。

# 找到每周工作时长与实习期填反的数据 对其单独进行交换操作
error = data[data["每周工作时长"].str.contains("月")]
error

在这里插入图片描述
进行修正,修正后的结果:
在这里插入图片描述

4. 数值型数据处理

4.1 处理每周工作时长

将每周工作时长中的数字提取出来:
在这里插入图片描述

4.2 处理实习期

将实习期中的数字提取出来
在这里插入图片描述

4.3 处理公司规模

通过观察可以看到公司规模有4种表述: - xxx-xxx人 少于15人 2000人以上,分开处理:
(1) - 的数据只有一条,删除
(2)把大于2000人的都定为2000
(3)把少于15人的都定为15
(4)把xxx-xxx求平均值
处理后:
在这里插入图片描述

4.4 处理工资,转为最低日薪 、 最高日薪、平均日薪

这里发现最低日薪有些不是数字,而是’面议’ ,所以我们重新定义2张表:
(1)薪资分析.txt:将工资中为”面议“的数据提出,剩下的数据中日薪为数值
(2)其他分析.txt:包含工资中为”面议“的数据
在这里插入图片描述

5. 分析

5.1 城市与职位数量

在这里插入图片描述
百分比:
北京 35.85% 上海 26.59% 广州 9.76%深圳 5.37%杭州 4.15%成都 2.93%南京 2.68%全国 1.95% 武汉 1.22% 济南 0.98% 苏州 0.98% 重庆 0.98%宁波 0.73%西宁 0.73%杭州市 0.73%西安 0.49%沈阳 0.49% 天津 0.49% 郑州 0.49% 佛山 0.24% 大连 0.24% 东莞 0.24% 福州 0.24% 昆明 0.24% 兰州 0.24% 长沙 0.24% 珠海 0.24% 汕头 0.24%
江门 0.24%

可以看到,大部分的数据分析实习岗位都集中在北上广深等城市

5.2 薪资分析

5.2.1 全国的平均月薪

由于每周工作的时长不同 我们看月薪 每周工作时长平均日薪4

df1['月薪'] = df1['每周工作时长'] * df1['平均日薪'] * 4
df1['月薪'].mean()

3118.208955223881
全国范围内,数据分析实习岗位的平均工资为31118

5.2.2 月薪与城市

在这里插入图片描述

5.3 评论词云

在这里插入图片描述
*End

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值