作为大家都非常熟悉的沉船事故–泰坦尼克号事件,该事件数据集同样也广受大家所关注,许多人拿数据集来分析研究,找出影响乘客幸存率的因素有哪些。
本文的目的是希望自己通过分析研究,去找出那些影响幸存率的因素,同时在过程中学习,强化自己。
一、前言
数据来源自kaggle数据集,该数据一共有12个字段,各项字段意义如下表:
对各字段进行意义性理解分析,找出影响幸存率的因素如下图
二、数据处理
打开数据源,对数据进行处理,发现cabin、age、Fare、embarked有缺失值。
1、cabin字段
该字段数据属于文本型字段,具体意义是指客舱号。
数据筛选,1309条记录中只有295条数据,缺失过于严重,故数据不再进行分析研究。
2、age字段
该字段是数字型字段,其数据意义是分析年龄对存活率的影响。
在1309条数据中只有1046条数据,缺失 263条数据。为了保持数据的真实性,所以不在对数据进行填充。
对数据进行整理,age应该为整数,故小于1的记为1岁,其他数据采用4舍5入,空值不改变。
3、Fare字段
该字段属于数字型数据,其意义是研究船票价格对存活的影响。数据筛选如下
该数据只有一个空值,我们可以按照该人员的详细数据去得出此人的Fare值。依据pclas=3,embarked=s,