本文利用已给特征属性和存活与否标签的训练集和只包含特征信息测试集数据,通过决策树模型来预测测试集数据乘客的生存情况
数据集来源为https://github.com/cystanford/Titanic_Data,可下载数据查看其各字段信息
生存预测的流程:
1、数据探索:
import numpy as np
import pandas as pd
train_data = pd.read_csv(r'C:\Users\hzjy\Desktop\train.csv') #加载数据
test_data = pd.read_csv(r'C:\Users\hzjy\Desktop\test.csv')
1)训练集数据的整体特征: