泰坦尼克号数据的分析研究

作为大家都非常熟悉的沉船事故–泰坦尼克号事件,该事件数据集同样也广受大家所关注,许多人拿数据集来分析研究,找出影响乘客幸存率的因素有哪些。

本文的目的是希望自己通过分析研究,去找出那些影响幸存率的因素,同时在过程中学习,强化自己。

一、前言

数据来源自kaggle数据集,该数据一共有12个字段,各项字段意义如下表:
在这里插入图片描述
对各字段进行意义性理解分析,找出影响幸存率的因素如下图
在这里插入图片描述

二、数据处理

打开数据源,对数据进行处理,发现cabin、age、Fare、embarked有缺失值。

1、cabin字段

该字段数据属于文本型字段,具体意义是指客舱号。
在这里插入图片描述
数据筛选,1309条记录中只有295条数据,缺失过于严重,故数据不再进行分析研究。

2、age字段

该字段是数字型字段,其数据意义是分析年龄对存活率的影响。
在这里插入图片描述
在1309条数据中只有1046条数据,缺失 263条数据。为了保持数据的真实性,所以不在对数据进行填充。
对数据进行整理,age应该为整数,故小于1的记为1岁,其他数据采用4舍5入,空值不改变。

3、Fare字段

该字段属于数字型数据,其意义是研究船票价格对存活的影响。数据筛选如下
在这里插入图片描述
该数据只有一个空值,我们可以按照该人员的详细数据去得出此人的Fare值。依据pclas=3,embarked=s,

  • 2
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值