泰坦尼克号乘客获救预测

本文详细探讨了泰坦尼克号乘客的生存概率,通过对数据的深入分析,包括性别、船舱等级、年龄、称呼、亲友数量等多个因素与生存率的关系,进行了缺失值处理、变量转换和特征工程,采用多种模型融合策略如Bagging、Boosting和Stacking,以提高预测准确性。最终,通过学习曲线和超参数调试优化模型,展示了预测生存率的完整过程。
摘要由CSDN通过智能技术生成

1. 数据总览

读取titannic生存模型,查看数据大致情况和主要特征:

import re
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings('ignore')

%matplotlib inline
train_data = pd.read_csv('datalab/1386/titanic_train.csv')
test_data = pd.read_csv('datalab/1386/titanic_test.csv')

sns.set_style('whitegrid')
train_data.head()

读取结果如下:
在这里插入图片描述
数据信息总览:

    display(train_data.info())
	print("-" * 40)
	test_data.info()

在这里插入图片描述
从上面我们可以看出,Age、Cabin、Embarked、Fare几个特征存在缺失值。
绘制存活的比例:

train_data['Survived'].value_counts().plot.pie(labeldistance = 1.1,autopct = '%1.2f%%',
                                               shadow = False,startangle = 90,pctdistance = 0.6)

#labeldistance,文本的位置离远点有多远,1.1指1.1倍半径的位置
#autopct,圆里面的文本格式,%3.1f%%表示小数有三位,整数有一位的浮点数
#shadow,饼是否有阴影
#startangle,起始角度,0,表示从0开始逆时针转,为第一块。一般选择从90度开始比较好看
#pctdistance,百分比的text离圆心的距离
#patches, l_texts, p_texts,为了得到饼图的返回值,p_texts饼图内部文本的,l_texts饼图外label的文本

在这里插入图片描述

2. 缺失值处理

对数据进行分析的时候要注意其中是否有缺失值。一些机器学习算法能够处理缺失值,比如神经网络,一些则不能。
对于缺失值,一般有以下几种处理方法:

  1. 如果数据集很多,但有很少的缺失值,可以删掉带缺失值的行;
  2. 如果该属性相对学习来说不是很重要,可以对缺失值赋均值或者众数;
  3. 对于标称属性,可以赋一个代表缺失的值,比如‘U0’。因为缺失本身也可能代表着一些隐含信息。比如船舱号Cabin这一属性,缺失可能代表并没有船舱。

比如在哪儿上船Embarked这一属性(共有三个上船地点),缺失俩值,可以用众数赋值:

train_data.Embarked[train_data.Embarked.isnull()] = train_data.Embarked.dropna().mode().values
#replace missing value with U0
train_data['Cabin'] = train_data.Cabin.fillna('U0')    
#train_data.Cabin[train_data.CAbin.isnull()]='U0'
  1. 使用回归 随机森林等模型来预测缺失属性的值。因为Age在该数据集里是一个相当重要的特征(先对Age进行分析即可得知),所以保证一定的缺失值填充准确率是非常重要的,对结果也会产生较大影响。一般情况下,会使用数据完整的条目作为模型的训练集,以此来预测缺失值。对于当前的这个数据,可以使用随机森林来预测也可以使用线性回归预测。这里使用随机森林预测模型,选取数据集中的数值属性作为特征(因为sklearn的模型只能处理数值属性,所以这里先仅选取数值特征,但在实际的应用中需要将非数值特征转换为数值特征)
from sklearn.ensemble import RandomForestRegressor

#choose training data to predict age
age_df = train_data[['Age','Survived','Fare', 'Parch', 'SibSp', 'Pclass']]
age_df_notnull = age_df.loc[(train_data['Age'].notnull())]
age_df_isnull = age_df.loc[(train_data['Age'].isnull())]
X = age_df_notnull.values[:,1:]
Y = age_df_notnull.values[:,0]

# use RandomForestRegression to train data
RFR = RandomForestRegressor(n_estimators=1000, n_jobs=-1)
RFR.fit(X,Y)
predictAges = RFR.predict(age_df_isnull.values[:,1:])
train_data.loc[train_data['Age'].isnull(), ['Age']]= predictAges

让我们再来看一下缺失数据处理后的DataFram:

train_data.info()

在这里插入图片描述

3. 数据分析处理

3.1 性别与是否生存的关系-Sex

train_data.groupby(['Sex','Survived'])['Survived'].count()

在这里插入图片描述

train_data[['Sex','Survived']].groupby(['Sex']).mean()

在这里插入图片描述

train_data[['Sex','Survived']].groupby(['Sex']).mean().plot.bar()

在这里插入图片描述
以上为不同性别的生存率,可见在泰坦尼克号事故中,还是体现了Lady First。

3.2 船舱等级和生存与否的关系-Pclass

train_data.groupby(['Pclass','Survived'])['Pclass'].count()

在这里插入图片描述

train_data[['Pclass','Survived']].groupby(['Pclass']).mean()

在这里插入图片描述

train_data[['Pclass','Survived']].groupby(['Pclass']).mean().plot.bar()

在这里插入图片描述

train_data[['Sex','Pclass','Survived']].groupby(['Pclass','Sex']).mean().plot.bar()

在这里插入图片描述

train_data.groupby(['Sex','Pclass','Survived'])['Survived'].count()

在这里插入图片描述
从图和表中可以看出,总体上泰坦尼克号逃生是妇女优先,但是对于不同等级的船舱还是有一定的区别。

3.3 年龄与存活与否的关系-Age

# 分别分析不同等级船舱和不同性别下的年龄分布和生存的关系
fig,ax = plt.subplots(1,2, figsize = (18,5))
ax[0].set_yticks(range(0,110,10))
sns.violinplot("Pclass","Age",hue="Survived",data=train_data,split=True,ax=ax[0])
ax[0].set_title('Pclass and Age vs Survived') 

ax[1].set_yticks(range(0,110,10))
sns.violinplot("Sex","Age",hue="Survived",data=train_data,split=True,ax=ax[1])
ax[1].set_title('Sex and Age vs Survived')
plt.show()

在这里插入图片描述

# 分析总体的年龄分布
plt.figure(figsize=(15,5))
plt.subplot(121)
train_data['Age'].hist(bins=100)
plt.xlabel('Age')
plt.ylabel('Num')
 
plt.subplot(122)
train_data.boxplot(column='Age',showfliers=False)
plt.show()

在这里插入图片描述

# 不同年龄下的生存和非生存的分布情况
facet = sns.FacetGrid(train_data,hue="Survived",aspect=4)
facet.map(sns.kdeplot,'Age',shade=True)
facet.set(xlim=(0,train_data['Age'].max()))
facet.add_legend()

在这里插入图片描述

# 不同年龄下的平均生存率
fig,axis1 = plt.subplots(1,1,figsize=(18,4))
train_data['Age_int'] = train_data['Age'].astype(int)
average_age = train_data[["Age_int", "Survived"]].groupby(['Age_int'],as_index=False).mean()
sns.barplot(x='Age_int',y='Survived',data=average_age)

在这里插入图片描述

train_data['Age'].describe()

在这里插入图片描述
样本有891,平均年龄约为30岁,标准差13.5岁,最小年龄0.42,最大年龄80.
按照年龄,将乘客划分为儿童、少年、成年、老年,分析四个群体的生还情况。

bins = [0, 12, 18, 65, 100]
train_data['Age_group'] = pd.cut(train_data['Age'],bins)
by_age = train_data.groupby('Age_group')['Survived'].mean()
print(by_age)

在这里插入图片描述

by_age.plot(kind = 'bar')

在这里插入图片描述

3.4 称呼与存活与否的关系-Name

通过观察名字数据,我们可以看出其中包括对乘客的称呼,如:Mr、Miss、Mrs等,称呼信息包含了乘客的年龄、性别,同时也包含了入社会地位等的称呼,如:Dr,Lady,Major(少校),Master(硕士,主人,师傅)等的称呼。

train_data['Title'] = train_data['Name'].str.extract(' ([A-Za-z]+)\.',expand=False)
pd.crosstab(train_data['Title'],train_data['Sex'])
# 观察不同称呼和生存率的关系
train_data[['Title','Survived']].groupby(['Title']).mean().plot.bar()

在这里插入图片描述

# 对于名字,观察名字长度和生存率之间的存在的关系
fig, axis1 = plt.subplots(1,1,figsize=(18,4))
train_data['Name_length'] = train_data['Name'].apply(len)
name_length = train_data[['Name_length','Survived']].groupby(['Name_length'], as_index=False).mean()
sns.barplot(x='Name_length', y='Survived',data=name_length)

在这里插入图片描述
从上面的图片可以看出,名字长度和生存与否确实也存在一定的相关性。

3.5 有无兄弟姐妹和存活与否的关系-SibSp

#将数据分为有兄弟姐妹和没有兄弟姐妹的两组:
sibsp_df = train_data[train_data['SibSp'] != 0]
no_sibsp_df = train_data[train_data['SibSp'] == 0]

plt.figure(figsize=(11,5))
plt.subplot(121)
sibsp_df['Survived'].value_counts().plot.pie(labels=['No Survived','Survived'],autopct= '%1.1f%%')
plt.xlabel('sibsp')
 
plt.subplot(122)
no_sibsp_df['Survived'].value_counts().plot.pie(labels=['No Survived','Survived'],autopct= '%1.1f%%')
plt.xlabel('no_sibsp')
 
plt.show()

在这里插入图片描述

3.6 有无父母子女和存活与否的关系-Parch

# 和有无兄弟姐妹一样,同样分析得到:
parch_df = train_data[train_data['Parch'] != 0]  
no_parch_df = train_data[train_data['Parch'] == 0]  
 
plt.figure(figsize=(11,5))  
plt.subplot(121)  
parch_df['Survived'].value_counts().plot.pie(labels=['No Survived', 'Survived'], autopct= '%1.2f%%')  
plt.xlabel('parch')  
 
plt.subplot(122)  
no_parch_df['Survived'].value_counts().plot.pie(labels=['No Survived', 'Survived'], autopct = '%1.2f%%')  
plt.xlabel('no_parch')
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值