数字特征
1,特征的预处理
- Scaling
- outliers
- rank
- 亚线性处理
(1)Scaling预处理
- To [0,1]:MinMaxScaler()
- To mean=0,std=1:StandardScaler()
(2)去除outliers
- 将一些特征的边缘值去掉,如下所示。
- 使用rankdata预处理:将特征值转换为对应排序后的索引,这种方法比第一种方法简便,如下所示。
- 使用rankdata预处理:将特征值转换为对应排序后的索引,这种方法比第一种方法简便,如下所示。
(3)亚线性处理
亚线性处理主要是将一些数值比较大的特征的影响稍微减弱一些。
- np.log(1+x)
- np.sqrt(1+2/3)
2,特征生成
主要方法有:
- 先验知识
- 探索性数据分析
下面主要说一下利用先验知识来生成新特征。
(1)加入一些组合特征
- 加性特征:几个基本特征相加。
- 乘性特征:几个基本特征相乘。例如:有长有宽,你可以生成一个面积的特征。
- 除性特征:几个基本特征相除。例如:有房子价格,面积,你可以生成一个单位面积价格的特征。
(2)加入一些创新性特征
例如将价格的小数部分作为一个新特征,可以理解为各个价格之间的区别性特征。小数部分为0.99的价格的商品可能卖的更好!