来自Kaggle上的练习Titanic: Machine Learning from Disaster,网址是https://www.kaggle.com/c/titanic
题目的大意是当年泰坦尼克号的沉没造成了很多人的死亡,其中比较重要的一个因素是救生艇不足,尽管是否能活下来有运气的因素,但有些人群的存活概率确实相对更高(比如女性,孩子)。题目给出了一些数据,然后希望我们能分析出就近何种人群更容易活下来。
数据主要在四个.csv文件中,一个train.csv,用于训练的样本,共891条内容,一个test.csv,相比前者缺少了Survived(是否存活)数据,另外两个gendermodel.csv和genderclassmodel.csv内容似乎是一样的,应该是test.csv的实际结果。
(一)数据概况
先瞄一眼train.csv文件里的内容,主要包含这么几列,可以简(武)单(断)地先判断一下那些数据比较有用:
PassengerId:只是个乘客序号;
Survived:最终是否存活;
Pclass:舱位,1是头等舱,3是最低等,从电影里看,这个影响还是挺大的;
Name:乘客姓名,除非是要算命,不然应该没啥影响;
Sex:性别,应该影响很大;
Age:年龄,有一部分数据缺失;
SibSp:一同上船的兄弟姐妹或配偶;
Parch:一同上船的父母或子女,目测这两项应该没啥影响吧,除非是要是一起死的那种;
Ticket:船票信息,比较乱,完全看不出有任何用处;
Fare:乘客票价,这个数据应该和Pclass有一定对应关系;
Cabin:客舱编号,应该不同的编号对应不同的位置,对逃生还是有一定影响的,然而这项数据缺失很多(204/891)&