特征预处理和特征生成 (一)数字特征

数字特征

1,特征的预处理

  • Scaling
  • outliers
  • rank
  • 亚线性处理

(1)Scaling预处理

  • To [0,1]:MinMaxScaler()
  • To mean=0,std=1:StandardScaler()

(2)去除outliers

  • 将一些特征的边缘值去掉,如下所示。

    • 使用rankdata预处理:将特征值转换为对应排序后的索引,这种方法比第一种方法简便,如下所示。

(3)亚线性处理

亚线性处理主要是将一些数值比较大的特征的影响稍微减弱一些。

  • np.log(1+x)
  • np.sqrt(1+2/3)

2,特征生成

主要方法有:

  • 先验知识
  • 探索性数据分析

下面主要说一下利用先验知识来生成新特征。

(1)加入一些组合特征

  • 加性特征:几个基本特征相加。
  • 乘性特征:几个基本特征相乘。例如:有长有宽,你可以生成一个面积的特征。
  • 除性特征:几个基本特征相除。例如:有房子价格,面积,你可以生成一个单位面积价格的特征。

(2)加入一些创新性特征

例如将价格的小数部分作为一个新特征,可以理解为各个价格之间的区别性特征。小数部分为0.99的价格的商品可能卖的更好!

3,总结

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值