目录:
处理缺失数据
制作透视图
删除含空数据的行和列
多行索引
使用apply函数
本节要处理的数据来自于泰坦尼克号的生存者名单,它的数据如下 pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
1,1,"Allen, Miss. Elisabeth Walton",female,29,0,0,24160,211.3375,B5,S,2,,"St Louis, MO"
1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.5500,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"
1,0,"Allison, Miss. Helen Loraine",female,2,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
其中,pclass描述的是客舱等级,boat描述的是生存者搭乘的救生艇号码,body描述的是乘客的尸体编码。其中age和sex字段都有缺失的数据。由于不能对缺失数据进行运算,所以要先处理缺失的数据
处理缺失数据
首先,Pandas会用NaN(not a number)来表示一个缺失的数据,计算age字段为空的数据有多少行。Pandas有一个函数isnull()可以直接判断该列中的哪个数据为NaN
importpandas as pd
file=‘titanic_survival.csv’
titanic_survival=pd.read_csv(file)
age_null=pd.isnull(titanic_survival[‘age’])
age_null_true= age_null[ age_null ==True]
age_null_count=len(age_null_true)
#计算age字段的平均值importpandas as pd
mean_age= sum(titanic_survival["age"]) / len(titanic_survival[