泰坦尼克号的数据分析

本文分析了泰坦尼克号上乘客的生还率与船舱等级、性别、年龄和是否有父母同行的关系。数据显示,船舱等级越高,生还率越高;女性生还率远高于男性;儿童的生还率最高,其次是少年和成年人,老年人最低;与父母同行的乘客生还率高于单独旅行者。
摘要由CSDN通过智能技术生成

数据分析之泰坦尼克号事件

本文就泰坦尼克号上的生还率与各个因素之间的关系进行探索。

首先,我们先在网上进行泰坦尼克号数据的下载。
然后引用python中的几个包。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline`

然后进行文件导入

df = pd.read_csv('TTNKH.csv')

接下来检查一下文件,然后看看数据中有多少幸存者。

df.info()
total_survived_sum = df['Survived'].sum()
total_nosurvived_sum =891 - df['Survived'].sum()
print("幸存者为%d,遇难者为%d"%(total_survived_sum,total_nosurvived_sum))

此次数据共有891人,幸存者为342,遇难者为549。
然后可以把生还者与未生还者的数据进行可视化。

plt.figure(figsize=(10,5))
plt.subplot(121)
sns.countplot(x="Survived",data=df )
plt.title('Survival count')

plt.subplot(122)
plt.pie([total_nosurvived_sum,total_survived_sum],labels=['no survived','survived'],autopct='%1.0f%%')
plt.title('Survival rate')

plt.show()

在这里插入图片描述
891名乘客中,生存率和死亡率分别为38%和62%

接下来就要对各因素进行具体分析了,首先是船舱等级
我们先查询一下各船舱分别有多少人。

df[['Pclass','Survived']].groupby(['Pclass']).count()

在这里插入图片描述

plt.figure(figsize=(10,5))
plt.subplot(121)
sns.countplot(x='Pclass',data=df)
plt.title('Pclass count')

plt.subplot(122)
plt.pie(df[['Pclass','Survived']].groupby(['Pclass']).count(),labels=['1','2','3'],autopct='%1.0f%%')
plt.show()

在这里插入图片描述
由图可以明显看出,在灾难发生前,一等舱、二等舱、三等舱的乘客分别为216、184、491人,分别占总人数的 24%, 21%, 55%。
然后是灾难发生之后各船舱幸存人数。

survived_df=df[df[ 'Survived'] == 1]
survived_df[['Pclass','Survived']].groupby('Pclass').sum()

在这里插入图片描述

plt.figure(figsize=(10,5))
plt.subplot(121)
sns.countplot(x='Pclass',data=survived_df)
plt.title('Pclass Survived')
plt.ylabel('Survived Count')

plt.subplot(122)
plt.pie(survived_df[['Pclass','Survived']].groupby('Pclass').sum(),labels=['1','2','3'],autopct='%1.0f%%')

plt.show()

在这里插入图片描述
灾难发生后,1等舱的生存人数为136人,2等舱的生存人数为87人,3等舱的生存人数为119人,分别占总生存人数的40%,25%,35%。
接下该对各船舱的生存情况进行一个对比。

Pclass1=df[df['Pclass']==1]
Pclass2=df[df['Pclass']==2]
Pclass3=df[df['Pclass']==3]

plt.figure(figsize=(10,20))
plt.<
  • 16
    点赞
  • 200
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
### 回答1: Jupyter是一个常用的交互式编程环境,可以用于进行数据分析和可视化。泰坦尼克号是一艘著名的沉船,其数据集包含了船上乘客的信息。通过对泰坦尼克号数据的分析,我们可以了解和预测乘客的生存情况和其他相关因素。 在进行泰坦尼克号数据分析时,我们可以首先导入数据集,并对数据进行初步的展示和观察。我们可以查看数据集的各个列名和数据类型,以及了解数据集中是否有缺失值等问题。 接下来,我们可以对数据集进行清洗和预处理。这可能包括处理缺失值,删除不需要的列或行,以及对数据进行转换或编码等操作。例如,我们可以通过填充或删除缺失值来处理数据集的缺失信息问题。我们还可以将分类变量进行独热编码,以便后续的分析和建模。 在数据预处理完成后,我们可以进行进一步的分析。我们可以使用统计方法和可视化工具来了解各个变量之间的关系,并探索生存率与其他因素(如性别、年龄等)之间的关系。我们可以绘制柱状图、饼图、箱图等图表来直观地展示数据集的特征和趋势。 此外,我们还可以使用机器学习算法对泰坦尼克号数据进行建模和预测。我们可以使用分类算法(如逻辑回归、决策树等)来预测乘客的生存情况。通过训练模型并对其进行评估,我们可以了解不同因素对生存率的影响,并预测新乘客的生存情况。 总而言之,通过对泰坦尼克号数据的分析,我们可以更深入地了解这个历史事件,并通过数据分析和建模方法来预测乘客的生存情况和其他相关因素。Jupyter提供了一个交互式的环境,使得数据分析和可视化更加方便和直观。 ### 回答2: 泰坦尼克号数据分析是基于Jupyter Notebook进行的一项分析工作。Jupyter Notebook是一个开源的交互式编程环境,可以用于数据分析、可视化和机器学习等任务。 在泰坦尼克号数据分析中,我们可以通过使用Jupyter Notebook来加载和处理数据,并进行各种统计和可视化操作。首先,我们需要导入所需的Python库,如pandas和matplotlib等。然后,我们可以使用pandas库读取泰坦尼克号数据集,并对数据进行初步的观察和清理,如查看数据的列名、样本值、缺失值等。 接下来,我们可以进行一些基本的统计分析,如计算乘客的生存率、船上不同等级舱位的人数和生存率等。这些分析结果可以通过使用matplotlib库进行可视化,如柱状图、饼图等。 此外,我们还可以使用Jupyter Notebook来进行更深入的数据分析,如特征工程、机器学习模型的构建和评估等。通过选择适当的特征和模型,我们可以预测乘客的生存情况,并对模型进行评估和优化。 总之,Jupyter Notebook提供了一个便捷的环境,可以对泰坦尼克号数据进行分析和可视化。通过使用各种Python库和机器学习算法,我们可以深入了解数据,并得出有关乘客生存情况的结论。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值