数据挖掘建模—3.特征工程
3.1数值型特征-数值变换、非线性变换、编码
3.2 无监督降维PCA
3.3计算型变换
3.4特征筛选
3.4 索引恢复
3.1数值型特征-数值变换、非线性变换、编码
数值变换
1.log变换:
由于数值型字段会有较大跨度,如最小值1最大值9999,不利于统计,需要对数值型特征进行指数变化即log变化,可以让特征和目标变量之间关系更接近线性,提供预测效果
import numpy
log_age = df_train[‘Age’].apply(lamda x:np.log(x))
df_train.loc[:,‘log_age’] = log_age
2.最大最小归一化MinMaxScaler
[ X-min(x)]/[max(x)-min(x)],最大最小值受异常点影响,鲁棒性差,比较适合传统精确数据场景
from sklearn.preprocessing import MinMaxScaler
mm_scaler = MinMaxScaler()
fare_trans = mm_scaler.fit_transform(df_train[[‘Fare’]])
注意:概率模型不需要归一化,只与变量分布和变量直接的条件概率相关,与变量值无关,如决策树、随机森林rf。另:树模型不能用梯度下降,树模型是寻找最优分裂点完成。
3.标准化StandardScaler
( x-μ)/σ x原始特征值,μ样本均值,σ样本标准差&#x