数据集及分析
泰坦尼克号的故事大家都耳熟能详,具体就不说了,这个题目是Kaggle的入门题目,关注点在通过题目给定的乘客信息,推断乘客能否在海难中生存下来。
数据有三个csv文件,一个训练集,一个测试集,还有一个答案模板(按照性别作为划分依据的答案)
数据特征:
survival:label,是否存活
plclass:票务舱情况,分三档,top,middle,low(1,2,3)
sex:性别
Age:年龄
sibsp:是xx的兄弟
parch:是xx的父母/子女 这两个是身份信息,同船上有多少亲人
ticket:票号(我个人觉得这个和最后结果应该相关性不高)
fare:费用,乘客票价
cabin:舱数
embarked:上船地点(港口)
利用pandas导入数据
import numpy as np
import pandas as pd
data =pd.read_csv("train.csv")
data.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId 891 non-null int64
Survived 891 non-null int64
Pclass 891 non-null int64
Name 891 non-null object
Se