数据挖掘建模---3.特征工程

数据挖掘建模—3.特征工程

3.1数值型特征-数值变换、非线性变换、编码
3.2 无监督降维PCA
3.3计算型变换
3.4特征筛选
3.4 索引恢复

3.1数值型特征-数值变换、非线性变换、编码

数值变换

1.log变换:
由于数值型字段会有较大跨度,如最小值1最大值9999,不利于统计,需要对数值型特征进行指数变化即log变化,可以让特征和目标变量之间关系更接近线性,提供预测效果
import numpy
log_age = df_train[‘Age’].apply(lamda x:np.log(x))
df_train.loc[:,‘log_age’] = log_age
2.最大最小归一化MinMaxScaler
[ X-min(x)]/[max(x)-min(x)],最大最小值受异常点影响,鲁棒性差,比较适合传统精确数据场景
from sklearn.preprocessing import MinMaxScaler
mm_scaler = MinMaxScaler()
fare_trans = mm_scaler.fit_transform(df_train[[‘Fare’]])
注意:概率模型不需要归一化,只与变量分布和变量直接的条件概率相关,与变量值无关,如决策树、随机森林rf。另:树模型不能用梯度下降,树模型是寻找最优分裂点完成。
3.标准化StandardScaler
( x-μ)/σ x原始特征值,μ样本均值,σ样本标准差&#x

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值