机器学习一小步：Kaggle上的练习Titanic: Machine Learning from Disaster（一）

最新推荐文章于 2025-06-03 14:40:28 发布

原创

最新推荐文章于 2025-06-03 14:40:28 发布 · 8.7k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #机器学习 #pandas #kaggle

来自Kaggle上的练习Titanic: Machine Learning from Disaster，网址是https://www.kaggle.com/c/titanic

题目的大意是当年泰坦尼克号的沉没造成了很多人的死亡，其中比较重要的一个因素是救生艇不足，尽管是否能活下来有运气的因素，但有些人群的存活概率确实相对更高（比如女性，孩子）。题目给出了一些数据，然后希望我们能分析出就近何种人群更容易活下来。

数据主要在四个.csv文件中，一个train.csv，用于训练的样本，共891条内容，一个test.csv，相比前者缺少了Survived（是否存活）数据，另外两个gendermodel.csv和genderclassmodel.csv内容似乎是一样的，应该是test.csv的实际结果。

（一）数据概况

先瞄一眼train.csv文件里的内容，主要包含这么几列，可以简（武）单（断）地先判断一下那些数据比较有用：

PassengerId：只是个乘客序号；

Survived：最终是否存活；

Pclass：舱位，1是头等舱，3是最低等，从电影里看，这个影响还是挺大的；

Name：乘客姓名，除非是要算命，不然应该没啥影响；

Sex：性别，应该影响很大；

Age：年龄，有一部分数据缺失；

SibSp：一同上船的兄弟姐妹或配偶；

Parch：一同上船的父母或子女，目测这两项应该没啥影响吧，除非是要是一起死的那种；

Ticket：船票信息，比较乱，完全看不出有任何用处；

Fare：乘客票价，这个数据应该和Pclass有一定对应关系；

Cabin：客舱编号，应该不同的编号对应不同的位置，对逃生还是有一定影响的，然而这项数据缺失很多（204/891），所以我选择暂时忽略；

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。