一、案例背景
1912年4月10日,泰坦尼克号从英国南安普敦出发,途经法国卢森堡以及爱尔兰昆士敦,驶向美国纽约。在4月14日深夜到4月15日凌晨,泰坦尼克号与冰山相撞后沉没。由于船上没有足够的救生艇供所有人使用,导致2224名船员及乘客中,1502人丧生。
二、案例数据
数据来源
理解数据
包含乘客存活状况的数据一共有891条,部分数据如下图所示:
数据字典:
变量 | 定义 | 说明 |
---|---|---|
PassengerId | 乘客编号 | |
Survived | 存活状况 | 0表示死亡,1表示幸存 |
Pclass | 客舱等级 | 船票上的客舱等级,1表示一等舱,2表示二等舱,3表示三等舱 |
Name | 姓名 | |
Sex | 性别 | male表示男性,female表示女性 |
Age | 年龄 | |
Sibsp | 船上的兄弟姐妹数或配偶数 | 指同代直系亲属数,忽略未婚妻或未婚夫 |
Parch | 船上的父母数或子女数 | 指不同代直系亲属数,如果小孩是和除了父母之外的人一起出行的,则Parch=0 |
Ticket | 船票编号 | |
Fare | 船票价格 | |
Cabin | 客舱号 | |
Embarked | 登船港口 | 出发点是S表示的英国南安普顿,途经C表示的法国卢森堡以及Q代表的爱尔兰昆士敦 |
三、数据清洗
重复值处理
使用Excel的数据工具“删除重复项”,结果显示数据集无重复项。
缺失值处理
数据集中缺失值是以空白单元格进行显示的。
首先,按列定位缺失值。步骤如下图所示,最终有缺失值的列是Age、Cabin以及Embarked。
其次,计算缺失率。对包含缺失值的Age、Cabin以及Embarked列分别使用COUNTBLANK函数统计缺失值,然后除以样本量891,结果如下图所示。
最后,处理缺失值。
(1)年龄缺失值的处理。年龄的描述统计如下图最右边的表