泰坦尼克号幸存者预测

在这里插入图片描述
泰坦尼克号的沉没是世界上最严重的海滩事故之一,通过模型来预测哪些人可能成为幸存者。

1、导入基本所需的库

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
plt.style.use('fivethirtyeight')

import warnings
warnings.filterwarnings('ignore')

2、导入数据集,探索数据

data = pd.read_csv('train.csv')
data.head()

离散型的变量有:Survived,Sex 和 Embarked。基于序列的有:Pclass
连续型的数值特征有:Age,Fare。离散型数值有:SibSp,Parch
混合型变量:Ticket和Cabin
Name的特征可能包含错误或者打字错误

data.isnull().sum()

这些特征包含null值的数量大小为:Cabin > Age > Embarked

data.info()

有7个特征是int型或float 型
有5个特征是object类型

#数值型特征的数值分布
data.describe()

#离散型数据的分布
data.describe(include=['object'])
# 标签比例 获救比例情况
f,ax = plt.subplots(1,2,figsize=(10,6))
data['Survived'].value_counts().plot.pie(explode=[0,0.1],
                                        autopct='%1.1f%%',
                                        ax=ax[0],shadow=True)
ax[0].set_title('Survived')

sns.countplot('Survived',data=data,ax=ax[1])

3、特征分析

# 标签比例 获救比例情况
f,ax = plt.subplots(1,2,figsize=(10,6))
data['Survived'].value_counts().plot.pie(explode=[0,0.1],
                                        autopct='%1.1f%%',
                                        ax=ax[0],shadow=True)
ax[0].set_title('Survived')

sns.countplot('Survived',data=data,ax=ax[1])

在这里插入图片描述

# 不同性别下存活人数
data.groupby(['Sex','Survived'])['Survived'].count()

sns.countplot('Sex',hue='Survived',data=data)

在这里插入图片描述
男人的人数多,但是女人存活率更高

# Pclass和获救之间的关系
pd.crosstab(data.Pclass,data.Survived,margins=True).style.background_gradient(cmap='GnBu_r')

sns.countplot('Pclass',hue='Survived',data=data)

在这里插入图片描述
观察到Pclass=1生存率高

#数值型特征age与Survived之间的联系
g = sns.FacetGrid(data, col='Survived')
g.map
  • 2
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值