幸存与否 ——泰坦尼克号沉船事件数据分析*

本文通过对泰坦尼克号沉船事件的数据分析,探讨了影响乘客幸存的重要因素。研究发现,性别、年龄和票价是决定幸存与否的关键变量,特别是女性、年轻人和高票价乘客的幸存率较高。随机森林模型在预测幸存者方面表现最佳,确认了这些因素的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

幸存与否
——泰坦尼克号沉船事件数据分析

铁达尼号沉船事件发生在1912年4月。铁达尼号是当时世界上最大的客运轮船,而此次航行为首次。铁达尼号从英国南安普敦出发,途经法国瑟堡-奥克特维尔以及爱尔兰昆士敦,计划中的目的地为美国纽约。由于航行途中瞭望员没有及时发现前方的冰峰,最后船撞上冰峰造成船难。本次数据分析基于真实的泰坦尼克号沉船事件数据,分析幸存与否的关键。

一、描述性分析

(1)数据变量

此次分析的数据变量共有11个,分别为:
在这里插入图片描述

在这些数据变量中姓名(name)和船票号(ticket)显然不能为最终幸存与否带来直接关联,而船舱号(cabin)缺失值多达1014个,所以这三个变量不作分析考虑。

数据的观测数有1309对,含有缺失数据的有274对,其中年龄(age)值缺失有263个,票价(fare)缺失有18个,登船地点(embarked)缺失有2个。含有票价(fare)与登船地点(embarked)缺失值的观测数据对与其他观测数据没有太多关联信息,所以选择删除。

由于年龄(age)对数据分类影响可能比较大,所以不能删除。选择使用KNN算法,近邻数取10,来估计缺失的数据。最后可用的观测数据有1289对。

(2)变量与变量间关系

响应变量为幸存与否(survived),自变量为船舱等级(pclass)、性别(sex)、年龄(age)、同乘的兄弟或配偶数量(sibsp)、同乘的父母或子女数量(parch)、票价(fare)、登船地点(embarked)。其

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值