“标准化”和“归一化”主要是指代四种Feature scaling(特征缩放)的方法
-
Rescaling ( min-max normalization) 有时简称normalization
x ′ = x − m i n ( x ) m a x ( x ) − m i n ( x ) x^{'} = \frac{x - min(x)}{ max(x) - min(x)} x′=max(x)−min(x)x−min(x)
将数值范围缩放到(0, 1),不改变数据分布特点: 本归一化方法比较适用于数值比较集中的情况
缺点: 如果max和min不稳定,很容易使得归一化结果不稳定,使得后续使用效果不佳。实际使用中用经验常量代替max和min
应用场景:在不涉及距离度量、协方差计算、数据不符合正太分布的时候,可以使用第一种方法或其他归一化方法(不包括Z-score方法)。比如图像处理中,将RGB图像转换为灰度图像后将其值限定在[0 255]的范围
-
Mean normalization
x ′ = x − m e a n ( x ) m a x ( x ) − m i n ( x ) x^{'} = \frac {x - mean(x)}{max(x)- min(x)} x′=max(x)−min(x)x−mean(x) -
Standardization (Z-score normalization)
x ′ = x − m e a n ( x ) σ x^{'} = \frac{x - mean(x)}{\sigma} x′=σx−mean(x)
将数值范围缩放到0附近,但不改变数据分布,处理后的数据符合标准正态分布,即均值为0,标准差为1本方法要求原始数据的分布可以近似为高斯分布,否则归一化的效果很差
应用场景:在分类、聚类算法中,需要使用距离来度量相似性的时候,或者使用PCA技术进行降为的时候,标准化方法效果较好
-
Scaling to unit length
x ′ = x ∥ x ⃗ ∥ x^{'} = \frac {x}{\left \|\vec x \right \|} x′=∥x∥x
mean 归一化
标准化
可以看到 mean 归一化和标准化都将数据分布中心移到原点,
归一化没有改变数据分布的形状,而标准化使样本数据的分布近似为某种分布(通常为正态分布)。