我的难题(基于分析泰坦尼克号事件)

根据一些共有的值对行分组
按照乘客的性别和是否生存进行分组

df.groupby(['survived','sex'])[passengerID].count()

删除某行因为缺失了年龄值的人

df.dropna(subset=['Age'])

根据条件语句来选择行
选择泰坦尼克号上所有女性的数据
or 多个条件选择行
选择泰坦尼克号上所有年龄大于或等于65的女性数据

df(df['Sex'] == 'female')
df[(df['Sex'] == 'female') & (df['Age'] >= 65)]

判断船舱等级是否和存活率有关,可以用皮尔森相关corr

df['Pclass'].corr(df['Survived'])

探究生存率和年龄的关系时采用scatter散点图

plt.scatter(df.Survived,df.Age)
plt.ylabel('年龄')
plt.grid(b=True,which='major',axis='y')
#grid是否显示网格线,默认which='major',axis='y'表示只显示y轴网格线
plt.title('按年龄看生存率(1为生存)')

查看各个港口获救情况

survived_1 = df.Embarked[df.Survived==0].value_counts()
survived_0 = df.Embarked[df.Survived==1].value_counts()
df1=pd.DataFrame({'获救':survived_1,'未获救':survived_0})
df1.plot(kind='bar',stacked=True)
plt.xlabel('登陆港口')
plt.ylabel('人数')

基于家庭成员规模和性别绘制点图

df['family_size']=df['Sibsp']+df['Parch'] #创建新列
axes=sns.pointplot('family_size',
         'survived',
         hue='Sex',
         data=df)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值