泰坦尼克号数据分析

最新推荐文章于 2024-05-20 12:07:15 发布

进击的可乐！

最新推荐文章于 2024-05-20 12:07:15 发布

阅读量3.6k

点赞数 3

文章标签：数据分析 webgl activemq framework ext

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/data_cola/article/details/116025545

版权

本文通过对泰坦尼克号数据的分析，探讨了舱位、性别、年龄、票价等因素对乘客生还率的影响。结果显示，头等舱生还率最高，女性生还率远超男性，0~15岁少年生还率最高，票价500-550的人群存活比例为100%。此外，S港口登船人数最多，但C港口生还率最高。

摘要由CSDN通过智能技术生成

这是一个很经典的案例，很多博主都写过，对，就是它：泰坦尼克号生存率的分析，它是kaggle上的一道题，通过船上乘客的信息分析和建模，预测哪些乘客得以生还。

我们就非常粗暴地拿这个数据集做一个简单的分析好了。

使用工具：Excel
（对，就是这么简单粗暴）

数据源的获取可后台回复：泰坦尼克

一、明确目的

1912年泰坦尼克号撞上冰山沉没，船上2224名乘客和机组人员中有1502人遇难，幸存下来的人是出于运气还是存在一定的规律？这是我们比较关心的，所以就要提出问题：

那些人士生还的可能性大？

其次了解数据，数据集总共有以下的字段，其中name、sex、cabin、embarked、ticket是字符串类型，pclass和survived虽然是数值型，但其含义是标签，我们分别从舱位、乘客、船票和地域的维度出发来分析。

二、数据处理

通过查看，发现Age、fare、embarked、cabin字段都是有缺失的，下面我们一个一个来看。

1、age缺失值处理

筛选age一列为空的有263条数据，缺失率为20%，可以全部填充为年龄的均值或众数，也可以进一步地分析，发现年龄缺失的数据里三等舱的最多，占总缺失值的79%，而三等舱里的未生还的男性占比最多，因此也可以用三等舱年龄的平均值来填充。

这里为了保持数据的真实性，就不做填充处理了。

2、fare缺失值处理

筛选发现fare（票价）只缺失了一个值，我们把它找出来，发现可以用同类型的均值填充掉。

因此我们筛选三等舱、年龄大于60岁的，登船港口为S的男性的均值票价7来填充这个缺失值。

3、embarked缺失值处理

embarked登船港口字段也有2个缺失值，筛选出来看下。

进一步观察到，这两个旅客都是单独出行，没有家人（从sibsp和parch列均为0得知），延续对fare缺失值处理的思路，寻找同类型的进行填充。对第一个旅客，筛选出头等舱的年龄在35~40岁的女性中，港口最多的值填充进去，结果是S。

同样的方法，对第二个旅客，筛选头等舱年龄在60~65岁的女性中，登陆港口最多的值，结果也为S。

4、cabin缺失值处理

对于cabin（客舱）字段缺失值达到了77%，缺失太多了，就不做填充处理了，直接保留或删除，这里先保留着吧。

三、数据分析

1、舱位维度

pclass
对舱位和生还情况分析，插入数据透视表

生还的人里，头等舱的占比达到了40%。

最低0.47元/天解锁文章

进击的可乐！

关注

3
点赞
踩
20

收藏

觉得还不错? 一键收藏
打赏
0
评论
泰坦尼克号数据分析

这是一个很经典的案例，很多博主都写过，对，就是它：泰坦尼克号生存率的分析，它是kaggle上的一道题，通过船上乘客的信息分析和建模，预测哪些乘客得以生还。我们就非常粗暴地拿这个数据集做一个...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

进击的可乐！ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。