归一化
定义上的区别
归一化:将数据的值压缩到0到1之间,公式如下
举例来说
有一组数据[0 10 20 55 99 100]
进行归一化
[0 0.1 0.2 0.55 0.99 1]
标准化
通过对原始数据进行变换把数据变换到均值为0,标准差为1范围内
- 对于归一化来说:如果出现异常点,影响了最大值和最小值,那么结果显然会发生改变
- 对于标准化来说:如果出现异常点,由于具有一定数据量,少量的异常点对于平均值的影响并不大,从而方差改变较小。
标准化的好处
- 特征的单位或者大小相差较大,或者某特征的方差相比其他的特征要大出几个数量级,容易影响(支配)目标结果,使得一些算法无法学习到其它的特征
如果数据的异常值过多,采用归一化会影响到模型,标准化的影响相对比较小