泰坦尼克号生存率分析

该博客详细探讨了泰坦尼克号上乘客的生存率,包括数据总览、年龄、性别、船舱等级、家庭成员数量以及票价对存活率的影响。发现女性和儿童的存活率更高,而家庭成员多的乘客生存机会较大,高票价乘客生存概率也较高。最后,利用KNN模型进行预测,清洗后的训练和测试样本分别为714和331个。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

泰坦尼克号生存率分析

1. 数据总览

Titanic 生存模型预测,其中包含了两组数据:train.csv 和 test.csv,分别为训练集合和测试集合。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os
import time #导入事件模块
import warnings
warnings.filterwarnings('ignore')#不发出警告

2. 观察前几行源数据

train_data=pd.read_csv('train.csv')
test_data=pd.read_csv('test.csv')
train_data.head()

在这里插入图片描述
3. 绘制存活比例

sns.set_style('ticks')
plt.axis('equal')
train_data['Survived'].value_counts().plot.pie(autopct='%1.2f%%')

在这里插入图片描述
4. 结合性别和年龄数据,分析幸存下来的人群特征

① 年龄数据的分布情况

train_data_age = train_data[train_data['Age'].notnull()]

plt.figure(figsize=(12,5))
plt.subplot(121)
train_data_age['Age'].hist(bins=70)
plt.xlabel('Age')
plt.ylabel('Num')
 
plt.subplot(122)
train_data.boxplot(column='Age',showfliers=False)
print('总体年龄分布: 去掉缺失值后样本有714,平均年龄约为30岁,标准差14岁,最小年龄0.42,最大年龄80.')
train_data_age['Age'].describe()

在这里插入图片描述总体年龄分布: 去掉缺失值后样本有714,平均年龄约为30岁,标准差14岁,最小年龄0.42,最大年龄80.
在这里插入图片描述
② 男性和女性存活情况

train_data[['Sex','Survived']].groupby(['Sex']).mean().plot.bar()
survive_sex = train_data.groupby(['Sex','Survived'])['Survived'].count()
print(survive_sex)

print('女性存活率为%.2f%%,男性存活率为%.2f%%' % 
     (survive_sex.loc['female',1]/survive_sex.loc['female'].sum()*100,survive_sex.loc['male',1]/survive_sex.loc['male'<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值