目录
二. 特征工程
特征提取
test原本无Survived列,将其补齐
test加到train尾部
训练集与测试集一起进行特征工程,标准化时需分开处理
#先将数据集合并,一起做特征工程(注意,标准化的时候需要分开处理)
#先将test补齐,然后通过pd.apped()合并
test['Survived'] = 0
train_test = train.append(test)
1.Pclass
pandas.get_dummies¶
Convert categorical variable into dummy/indicator variables
train_test = pd.get_dummies(train_test,columns=['Pclass'])
以Pclass关键字,将train_test分列。原Pclass列所含数值的集合为[1,2,3],则分为三列,分的列数为集合的大小
分列后,每列的名字为Pclass_1,Pclass_2,Pclass_3。每列的数值为[0, 1]。
2.Sex
train_test = pd.get_dummies(train_test,columns=["Sex"])
以Sex为关键字,分列
分列前
分列后
3.添加新特征 SibSp_Parch
train_test['SibSp_Parch'] = train_test['SibSp'] + train_test['Parch']
train_test = pd.get_dummies(train_test,columns = ['SibSp','Parch','SibSp_Parch'])
4.Embarked
train_test = pd.get_dummies(train_test,columns=["Embarked"])
5.Name
6.Fare
7.Ticket
8.Age
9.Cabin