思路
本题目通过分析事发时的数据使用机器学习的方法预测那些乘客最终能在这次灾难中幸存下来。通过乘客的各项信息,比如姓名,性别,年龄,程传客舱等级等信息,尝试预测每位乘客幸存的概率。
我们认为相关性较高的字段,如客舱等级“Pclass”,乘客性别“Sex”,乘客年龄“Age”,是影响是否存活的主要因素。
经过上诉分析,我们得出解决Titanic问题的主要思路,即首先采用归一化等操作手段对原始数据进行预处理,然后挑选特征向量的维度,并以此训练一个二分类器,最终使用训练好的分类器来预测侧测试数据的结果。
整个代码分为:数据读入及预处理,构建计算图,构建训练迭代过程,执行训练,存储模型,预测测试数据结果几个部分。
1、数据读入及预处理
#coding:utf-8
import pandas as pd #完成对数据的操作
data = pd.read_csv(r"F:\python_daima\train.csv")