kaggle实战——titanic分析
一、数据集获取
登陆kaggle账号(注册流程),点击compete-All Competitions-选择all categories中的get started-在选择inclass,找到titanic案例。
二、数据集介绍
(一)下载数据集内容
有三个文件:train.csv,test.csv,gender_Submission.csv
第一个数据集是用于数据训练模型,当模型训练好之后,利用数据集二进行预测,最后提交预测的数据。最后一个数据集为提交示范,表示以性别预测船员存活的最终结果,我们可以添加其他特征变量使其更加精准。
(二)数据字段分析
可直接参见kaggle数据集的字段说明,英文并不是很复杂,可直接看,我就不翻译了。
三、数据可视化分析与特征选择
import pandas as pd
import matplotlib.pyplot as plt
train=pd.read_csv(r'C:\Users\lamiazhou\Desktop\python\project\titanic\train.csv')
test=pd.read_csv(r'C:\Users\lamiazhou\Desktop\python\project\titanic\test.csv')
print(train.info())
print("_________"*2)
print(test.info())
0 PassengerId 891 non-null int64
1 Survived 891 non-null int64
2 Pclass 891 non-null int64
3 Name 891 non-null object
4 Sex 891 non-null object
5 Age 714 non-null float64
6 SibSp 891 non-null int64
7 Parch 891 non-null int64
8 Ticket 891 non-null object
9 Fare 891 non-null float64
10 Cabin 204 non-null object
11 Embarked 889 non-null object
__________________
0 PassengerId 418 non-null int64
1 Pclass 418 non-null int64
2 Name 418 non-null object
3 Sex 418 non-null object
4 Age 332 non-null float64
5 SibSp 418 non-null int64
6 Parch 418 non-null int64
7 Ticket 418 no