基于titanic数据集的分类器构建---（二）特征选择

本文链接：https://blog.csdn.net/m0_48839222/article/details/125983071

结论

变量	定义	key	结论：是否选做特征值
survival	Survival	0 = No, 1 = Yes
pclass	Ticket class	1 = 1st, 2 = 2nd, 3 = 3rd	高级的船舱的生存几率高
sex	Sex		女性生存几率高
Age	Age in years		青壮年的生存几率高
sibsp	# of siblings / spouses aboard the Titanic		配偶或亲戚个数少的生存几率高
parch	# of parents / children aboard the Titanic		同行的父母子女人数少的生存几率高
ticket	Ticket number		不做特征
fare	Passenger fare		票价与船舱等级相匹配，因而选择船舱等级作为特征值
cabin	Cabin number		由于缺失值太多，不选做特征值
embarked	Port of Embarkation	C = Cherbourg, Q = Queenstown, S = Southampton	不同的上船地点生存几率相差不多

特征处理

在选出pclass、sex、age、sibsp、parch做特征后，将这些属性做处理。

 #变量转换
        train_data = xy[['Pclass','Sex','Age','SibSp','Parch','Survived']]
        train_data.loc[train_data['Sex'] == 'male', 'Sex'] = 0
        train_data.loc[train_data['Sex'] == 'female', 'Sex'] = 1


        X_age = np.array(train_data['Age']).reshape(-1,1)#直接变成一列
        train_data['Age'] = StandardScaler().fit_transform(X_age)

        print(train_data.head())

结果显示