kaggle 泰坦尼克号生存预测 二、特征工程

目录

二. 特征工程

特征提取

1.Pclass

2.Sex

3.添加新特征 SibSp_Parch

4.Embarked 

5.Name

6.Fare

7.Ticket

8.Age

9.Cabin

划分数据集


二. 特征工程

特征提取

test原本无Survived列,将其补齐

test加到train尾部

训练集与测试集一起进行特征工程,标准化时需分开处理

#先将数据集合并,一起做特征工程(注意,标准化的时候需要分开处理)
#先将test补齐,然后通过pd.apped()合并
test['Survived'] = 0
train_test = train.append(test)

1.Pclass

pandas.get_dummies

Convert categorical variable into dummy/indicator variables

train_test = pd.get_dummies(train_test,columns=['Pclass'])

以Pclass关键字,将train_test分列。原Pclass列所含数值的集合为[1,2,3],则分为三列,分的列数为集合的大小

分列后,每列的名字为Pclass_1,Pclass_2,Pclass_3。每列的数值为[0, 1]。

2.Sex

train_test = pd.get_dummies(train_test,columns=["Sex"])

以Sex为关键字,分列

分列前

分列后

3.添加新特征 SibSp_Parch

train_test['SibSp_Parch'] = train_test['SibSp'] + train_test['Parch']
train_test = pd.get_dummies(train_test,columns = ['SibSp','Parch','SibSp_Parch']) 

4.Embarked 

train_test = pd.get_dummies(train_test,columns=["Embarked"])

5.Name

 

6.Fare

 

7.Ticket

 

8.Age

 

9.Cabin

 

划分数据集

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值