导入数据并把数据读出
import pandas as pd
data = pd.read_csv("salaries.csv")
data.head()
删除ID列
data.drop(["ID"], axis = 1, inplace = true)
axis = 0 代表跨行,axis = 1 代表跨列
把所有列改成中文
data.columns = ["员工姓名","员工职位","基本工资","加班工资",
"其他支付","福利","总共支付","总共支付加福利",
"入职年份","附加说明","代理","状态"]
查看员工姓名这一列
data["员工姓名"]
查看入职年份有几个
data["入职年份"].nunique()
计算平均工资
data["基本工资"].mean()
加班工资的最高金额
data["加班工资"].max()
人名是GARY JIMENEZ的基本工资有多少
data[data["员工姓名"]=="GARY JIMENEZ"]["基本工资"]
收入最高的人是谁(总共支付加福利)
data[data["总共支付加福利"]==data["总共支付加福利"].max()]["员工姓名"]
收入最低的人是谁(总共支付加福利)
data[data["总共支付加福利"]==data["总共支付加福利"].min()]["员工姓名"]
每年所有员工的平均的基本工资是多少
data.groupby("入职年份").mean()["基本工资"]
任职人数最多的5个岗位 (排序) 正序和倒序
data.groupby("员工职位").count()["员工姓名"].sort_values(
ascending = False).head(5)
ascending=False 倒序
ascending=True(默认) 正序
value_counts()是值计数统计
data["员工职位"].value_counts().head(5)
这个机构有多少个工作岗位
data["员工职位"].nunique()
2014年有多少个职位只由一个人担任
sum(data[data["入职年份"]==2014]["员工职位"].value_counts()==1)