前言
最近在学习《从零开始学Python数据分析》这本书,第六章的综合实例——巴尔的摩公务员工资数据集,原网站上数据集被清除,于是在Kaggle上寻找了相似的数据“Employee_monthly_salary.csv”进行可视化数据分析。
工作环境
系统: windows10
工具: pycharm2019.2.6
第三方包:
pandas1.1.4
numpy1.19.4
matplotlib==3.3.2
文件(Employee_monthly_salary.csv)
完整代码
# import numpy as np
import pandas as pd
# from pandas import DataFrame
import matplotlib.pyplot as plt
# import matplotlib as mlb
pd.set_option('mode.chained_assignment', None) # 消除链接操作时警示(治标不治本)
"""
EmpID 职工ID
Name 姓名
Gender 性别
Date_of_Birth 出生日期
Age 年龄
Join_Date 入职日期
Tenure_in_org_in_months 工作总月份
GROSS 总工资
Net_Pay 实际工资
Deduction 扣除部分
Deduction_percentage 扣除百分比
Designation 职位
Department 部门
"""
"""
我们即将实现的功能:
1.男女平均工资对比;
2.男性和女性最高工资和最低工资对比;
3.月薪的分布状况
4.人数最多的职位Top5的平均工资;
5.不同月份入职人员数量;
6.任职时间和工资的关系
"""
# 主菜单
def menu():
print('*' * 10, '请选择功能', '*' * 10, '\n')
print('请输入对应功能的序号:')
print("1.男女工资平均对比")
print('2.最高工资和最低工资对比')
print('3.月薪分布状况')
print('4.人数最多的职位Top5的平均工资')
print('5. 不同月份入职人员数量')
print('6. 入职时间和工资的关系')
print("输入0字符退出")
print('*' * 10, '退出程序', '*' * 10, '\n')
# 男女平均工资对比
def sex_salary(salary):
avg_salary = salary.groupby('Gender')[