介绍:
本文使用简单的线性模型预测泰坦尼克号乘客生存情况,利用kaggle上的Titanic数据集,最后采用五折交叉验证方法评价模型
思路:
-
读取数据:用pandas读取titanic的训练数据
-
数据清洗:fillna函数填补空值
-
特征提取:选择年龄、性别、客舱等级、登船港口为关键特征
-
选择模型:选择线性模型进行模型构建
-
模型评价:使用五折交叉验证法进行模型评价
# 导入数据
import pandas as pd
titanic_train = pd.read_csv('c:/train.csv')
# 用Age列的中位数填补缺失值
titanic_train['Age'] = titanic_train['Age'].fillna(titanic_train['Age'].median())
# 将Sex列中female转换成1,male转换成0,便于数据处理
titanic_train.loc[titanic_train['Sex']=='female','Sex']=1
titanic_train.loc[titanic_train['Sex']=='male','Sex']=0
# 用Embarked列中最多的s填补空值,并将仓口代号转换成数字
titanic_train['Embarked'] = titanic_train['Embarked'].fillna('s')
titanic_train.loc[titanic_train['Embarked']=='S','Embarked'] = 0
titanic_train.loc[titanic_train['Embarked']=='Q','Embarked'] = 1
titanic_train.loc[titanic_train['Embarked']=='C','Embarked'] = 2
#
未完待续。。。。。