Titanic作为Kaggle官方网站的第一篇入门比赛,如果你想学习kaggle,那么从它开始无疑是比较好的一个选择。
首先贴一下网址:https://www.kaggle.com/c/titanic
问题描述
先描述一下问题:泰坦尼克号的沉没是历史上最臭名昭著的沉船事件之一。1912年4月15日,泰坦尼克号在处女航中撞上冰山沉没,2224名乘客和船员中1502人遇难。这一耸人听闻的悲剧震惊了国际社会,并导致了更好的船舶安全条例。沉船造成如此巨大人员伤亡的原因之一是没有足够的救生艇来容纳乘客和船员。虽然在沉船事件中幸存下来也有一些运气的因素,但有些人比其他人更有可能幸存下来,比如妇女、儿童和上层阶级。在这个挑战中,我们要求你完成对可能存活下来的人的分析。我们特别要求你们运用机器学习工具来预测哪些乘客在灾难中幸存下来。
数据集:
数据集共3个文件,train.csv是我们的训练文件,是一个12维的数据,其中11维是特征,分别是乘客id,pclass, name, sex, age, sibSP, paoch, Ticket, Fare, Cabin, Embarked; 第二行“survived”是我们的标签,表示是否存活,0表示未存活,1表示为存活。