在特征处理的时候,经常会遇到两个特征之间不再同一个量级的情况,这个时候如果采用线性运算的话,就很容易导致不平衡,所以就有在数据处理阶段对特征进行归一化的操作,常用的归一化操作有max-min和z-score。
一 max-min
max-min是对数据做了一次线性变换,将X值映射到了[0,1]之间。一般是在特征数据较为零散或者是线性关系,并且没有很多离群值的时候,可以采用这种方法进行归一化,公式如下:
二 Z-Score
这种方法是基于数据的均值和方差来将数据进行标准化,比较适用于数据的分布类似高斯分布的情况,公式如下: