目录
代码链接:https://github.com/guotianyi960531/shixiseng_Dataget
1. 从mysql获取之前抓取的数据,并存为csv
从数据库提取信息,保存为csv,便于后续操作。
2. 读取数据
读取csv,自定义表的列名。
3. 部分数据反了
通过观察,在抓取数据的时候,每周工作时长与实习期有部分的数据反了。
# 找到每周工作时长与实习期填反的数据 对其单独进行交换操作
error = data[data["每周工作时长"].str.contains("月")]
error
进行修正,修正后的结果:
4. 数值型数据处理
4.1 处理每周工作时长
将每周工作时长中的数字提取出来:
4.2 处理实习期
将实习期中的数字提取出来
4.3 处理公司规模
通过观察可以看到公司规模有4种表述: - xxx-xxx人 少于15人 2000人以上,分开处理:
(1) - 的数据只有一条,删除
(2)把大于2000人的都定为2000
(3)把少于15人的都定为15
(4)把xxx-xxx求平均值
处理后:
4.4 处理工资,转为最低日薪 、 最高日薪、平均日薪
这里发现最低日薪有些不是数字,而是’面议’ ,所以我们重新定义2张表:
(1)薪资分析.txt:将工资中为”面议“的数据提出,剩下的数据中日薪为数值
(2)其他分析.txt:包含工资中为”面议“的数据
5. 分析
5.1 城市与职位数量
百分比:
北京 35.85% 上海 26.59% 广州 9.76%深圳 5.37%杭州 4.15%成都 2.93%南京 2.68%全国 1.95% 武汉 1.22% 济南 0.98% 苏州 0.98% 重庆 0.98%宁波 0.73%西宁 0.73%杭州市 0.73%西安 0.49%沈阳 0.49% 天津 0.49% 郑州 0.49% 佛山 0.24% 大连 0.24% 东莞 0.24% 福州 0.24% 昆明 0.24% 兰州 0.24% 长沙 0.24% 珠海 0.24% 汕头 0.24%
江门 0.24%
可以看到,大部分的数据分析实习岗位都集中在北上广深等城市
5.2 薪资分析
5.2.1 全国的平均月薪
由于每周工作的时长不同 我们看月薪 每周工作时长平均日薪4
df1['月薪'] = df1['每周工作时长'] * df1['平均日薪'] * 4
df1['月薪'].mean()
3118.208955223881
全国范围内,数据分析实习岗位的平均工资为31118
5.2.2 月薪与城市
5.3 评论词云
*End