根据一些共有的值对行分组
按照乘客的性别和是否生存进行分组
df.groupby(['survived','sex'])[passengerID].count()
删除某行因为缺失了年龄值的人
df.dropna(subset=['Age'])
根据条件语句来选择行
选择泰坦尼克号上所有女性的数据
or 多个条件选择行
选择泰坦尼克号上所有年龄大于或等于65的女性数据
df(df['Sex'] == 'female')
df[(df['Sex'] == 'female') & (df['Age'] >= 65)]
判断船舱等级是否和存活率有关,可以用皮尔森相关corr
df['Pclass'].corr(df['Survived'])
探究生存率和年龄的关系时采用scatter散点图
plt.scatter(df.Survived,df.Age)
plt.ylabel('年龄')
plt.grid(b=True,which='major',axis='y')
#grid是否显示网格线,默认which='major',axis='y'表示只显示y轴网格线
plt.title('按年龄看生存率(1为生存)')
查看各个港口获救情况
survived_1 = df.Embarked[df.Survived==0].value_counts()
survived_0 = df.Embarked[df.Survived==1].value_counts()
df1=pd.DataFrame({'获救':survived_1,'未获救':survived_0})
df1.plot(kind='bar',stacked=True)
plt.xlabel('登陆港口')
plt.ylabel('人数')
基于家庭成员规模和性别绘制点图
df['family_size']=df['Sibsp']+df['Parch'] #创建新列
axes=sns.pointplot('family_size',
'survived',
hue='Sex',
data=df)