谈一下Python中sklearn.preprocessing与数据预处理相关的函数
一、Scale包括两部分:Standardization(标准化)和Centering(归一化)
1、Standardization:
newX = (X- 均值) / 标准差(standard deviation), newX 的均值=0,方差= 1,可用于发现离群点,Python中计算函数为preprocessing.scale和preprocessing.StandardScale,区别在于preprocessing.StandardScale可以保存测试集上的均值、标准差,从而在训练集做一样的处理,
2、Centering: