泰坦尼克号数据_泰坦尼克号数据分析案例实战

本文通过对泰坦尼克号数据的分析,揭示了舱位、性别、年龄、家庭成员数量等因素如何影响乘客的生还率。数据显示,头等舱乘客、女性和少年的生还概率较高,而三等舱乘客的生还率最低。同时,有1个亲戚的乘客和有3个父母/孩子的乘客生还率最高。票价在500-550元的乘客100%生还,而0-50元票价的乘客生还率仅为32%。
摘要由CSDN通过智能技术生成

这是一个很经典的案例,很多博主都写过,对,就是它:泰坦尼克号生存率的分析,它是kaggle上的一道题,通过船上乘客的信息分析和建模,预测哪些乘客得以生还。

我们就非常粗暴地拿这个数据集做一个简单的分析好了。

使用工具:Excel(对,就是这么简单粗暴)

一、明确目的

1912年泰坦尼克号撞上冰山沉没,船上2224名乘客和机组人员中有1502人遇难,幸存下来的人是出于运气还是存在一定的规律?这是我们比较关心的,所以就要提出问题:

那些人士生还的可能性大?

其次了解数据,数据集总共有以下的字段,其中name、sex、cabin、embarked、ticket是字符串类型,pclass和survived虽然是数值型,但其含义是标签,我们分别从舱位、乘客、船票和地域的维度出发来分析。

7ad24f804402b84c5b22d178fb0e4bc9.png

二、数据处理

通过查看,发现Age、fare、embarked、cabin字段都是有缺失的,下面我们一个一个来看。

1、age缺失值处理

筛选age一列为空的有263条数据,缺失率为20%,可以全部填充为年龄的均值或众数,也可以进一步地分析,发现年龄缺失的数据里三等舱的最多,占总缺失值的79%,而三等舱里的未生还的男性占比最多,因此也可以用三等舱年龄的平均值来填充。

1f00cf082f6bec6ebe7b348b1b112575.png

这里为了保持数据的真实性,就不做填充处理了。

2、fare缺失值处理

筛选发现fare(票价)只缺失了一个值,我们把它找出来,发现可以用同类型的均值填充掉。

f2aacd6516df46bf42bdaff760903bc5.png


因此我们筛选三等舱、年龄大于60岁的,登船港口为S的男性的均值票价7来填充这个缺失值。

9324aaae3b5b77cf152523146f74ea33.png

3、embarked缺失值处理

embarked登船港口字段也有2个缺失值,筛选出来看下。

e063c722d4d98afa47f51ce15359f7fd.png


进一步观察到,这两个旅客都是单独出行,没有家人(从sibsp和parch列均为0得知),延续对fare缺失值处理的思路,寻找同类型的进行填充。对第一个旅客,筛选出头等舱的年龄在35~40岁的女性中,港口最多的值填充进去,结果是S。

13b9aeee7ba8cefe915b5ae2e968032e.png


同样的方法,对第二个旅客,筛选头等舱年龄在60~65岁的女性中,登陆港口最多的值,结果也为S。

e1f605ad42ee54b6be37913ce6bfea11.png

4、cabin缺失值处理

对于cabin(客舱)字段缺失值达到了77%,缺失太多了,就不做填充处理了,直接保留或删除,这里先保留着吧。

ddcb4f55b0e791d6e162392d4a4bb814.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值