幸存与否
——泰坦尼克号沉船事件数据分析
铁达尼号沉船事件发生在1912年4月。铁达尼号是当时世界上最大的客运轮船,而此次航行为首次。铁达尼号从英国南安普敦出发,途经法国瑟堡-奥克特维尔以及爱尔兰昆士敦,计划中的目的地为美国纽约。由于航行途中瞭望员没有及时发现前方的冰峰,最后船撞上冰峰造成船难。本次数据分析基于真实的泰坦尼克号沉船事件数据,分析幸存与否的关键。
一、描述性分析
(1)数据变量
此次分析的数据变量共有11个,分别为:
在这些数据变量中姓名(name)和船票号(ticket)显然不能为最终幸存与否带来直接关联,而船舱号(cabin)缺失值多达1014个,所以这三个变量不作分析考虑。
数据的观测数有1309对,含有缺失数据的有274对,其中年龄(age)值缺失有263个,票价(fare)缺失有18个,登船地点(embarked)缺失有2个。含有票价(fare)与登船地点(embarked)缺失值的观测数据对与其他观测数据没有太多关联信息,所以选择删除。
由于年龄(age)对数据分类影响可能比较大,所以不能删除。选择使用KNN算法,近邻数取10,来估计缺失的数据。最后可用的观测数据有1289对。
(2)变量与变量间关系
响应变量为幸存与否(survived),自变量为船舱等级(pclass)、性别(sex)、年龄(age)、同乘的兄弟或配偶数量(sibsp)、同乘的父母或子女数量(parch)、票价(fare)、登船地点(embarked)。其