Excel:TITANIC号乘客幸存特征分析

一、案例背景

1912年4月10日,泰坦尼克号从英国南安普敦出发,途经法国卢森堡以及爱尔兰昆士敦,驶向美国纽约。在4月14日深夜到4月15日凌晨,泰坦尼克号与冰山相撞后沉没。由于船上没有足够的救生艇供所有人使用,导致2224名船员及乘客中,1502人丧生。

二、案例数据

数据来源

Kaggle:Titanic

理解数据

包含乘客存活状况的数据一共有891条,部分数据如下图所示:
Titanic部分数据数据字典:

变量 定义 说明
PassengerId 乘客编号
Survived 存活状况 0表示死亡,1表示幸存
Pclass 客舱等级 船票上的客舱等级,1表示一等舱,2表示二等舱,3表示三等舱
Name 姓名
Sex 性别 male表示男性,female表示女性
Age 年龄
Sibsp 船上的兄弟姐妹数或配偶数 指同代直系亲属数,忽略未婚妻或未婚夫
Parch 船上的父母数或子女数 指不同代直系亲属数,如果小孩是和除了父母之外的人一起出行的,则Parch=0
Ticket 船票编号
Fare 船票价格
Cabin 客舱号
Embarked 登船港口 出发点是S表示的英国南安普顿,途经C表示的法国卢森堡以及Q代表的爱尔兰昆士敦

三、数据清洗

重复值处理

使用Excel的数据工具“删除重复项”,结果显示数据集无重复项。

缺失值处理

数据集中缺失值是以空白单元格进行显示的。

首先,按列定位缺失值。步骤如下图所示,最终有缺失值的列是Age、Cabin以及Embarked。

其次,计算缺失率。对包含缺失值的Age、Cabin以及Embarked列分别使用COUNTBLANK函数统计缺失值,然后除以样本量891,结果如下图所示。
缺失率计算结果

最后,处理缺失值。
(1)年龄缺失值的处理。年龄的描述统计如下图最右边的表

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值