-
归一化(0-1 normalization/ min-max normalization)
把数变为(0,1)之间的小数,特征数据范围不同归一化后方便统一处理
这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义 -
z-score 标准化(zero-mean normalization)
经过处理的数据符合标准正态分布,z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。
该种标准化方式要求原始数据的分布可以近似为高斯分布,否则效果会变得很糟糕。
在不涉及距离度量、协方差计算、数据不符合正太分布的时候,可以使用归一化方法。比如图像处理中,将RGB图像转换为灰度图像后将其值限定在[0 255]的范围。因为其协方差产生了倍数值的缩放,因此这种方式无法消除量纲对方差、协方差的影响,对PCA分析影响巨大;同时,由于量纲的存在,使用不同的量纲、距离的计算结果会不同。而在第二种归一化方式中,新的数据由于对方差进行了归一化,这时候每个维度的量纲其实已经等价了,每个维度都服从均值为0、方差1的正态分布,在计算距离的时候,每个维度都是去量纲化的,避免了不同量纲的选取对距离计算产生的巨大影响。
详情可以参考:link