Kaggle入门之泰坦尼克号生还预测

Kaggle入门之泰坦尼克号生还预测

Kaggle网址:https://www.kaggle.com/
数据集下载地址:https://github.com/Hujiang213/Kaggle-Titanic

比赛说明

RMS泰坦尼克号的沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会,并导致了更好的船舶安全规定。

造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管幸存下沉有一些运气因素,但有些人比其他人更容易生存,比如女人,孩子和上流社会。

在这个挑战中,我们要求您完成对哪些人可能存活的分析。特别是,我们要求您运用机器学习工具来预测哪些乘客幸免于悲剧。

分析过程

1、数据准备与分析

import pandas 
train_data = pandas.read_csv("C:\\Users\\asus-pc\\Downloads\\train.csv")
train_data.head(10)


初探数据集,打开csv文件,想查看前十行数据(也可用Excel打开查看所有的数据)
这是典型的dataframe格式,数据总共有12列,其中Survived字段表示的是该乘客是否获救,其余都是乘客的个人信息,包括:

PassengerId —> 乘客编号
Survived —>是否生还,是为1,否为0
Pclass —> 船票等级(1/2/3等舱位)
Name —> 乘客姓名
Sex —> 性别
Age —> 年龄
SibSp —> 堂兄弟/姐妹个数
Parch —> 父母与儿女个数
Ticket —> 船票编号
Fare —> 票价
Cabin —> 客舱号
Embarked —> 登船港口(S/C/Q港口)

从Excel发现,数据集中年龄有少部分缺失(年龄是比较重要的数据),先进行填补之后,我们看一下数据的描述性统计结果:

train_data["Age"] = train_data["Age"].fillna(train_data["Age"].median())
train_data.describe()

这里写图片描述
观察描述性统计结果,一共有891条记录。mean字段告诉我们,大概38.38%的人最后获救了。在填补年龄数据之后,,乘客的平均年龄在29岁左右,年龄最小的不到半岁,年龄最大的则有80岁。其他未能统计的数据列,将在接下来的数据预处理中进行整理。

2、数据预处理

剔除无意义的船票编号跟缺失值太多的舱位

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值