标准化和归一化(Standardization and Normalization)

最新推荐文章于 2021-03-08 13:11:31 发布

Vincent123Mei

最新推荐文章于 2021-03-08 13:11:31 发布

阅读量578

点赞数

分类专栏：机器学习深度学习文章标签：聚类机器学习人工智能

本文链接：https://blog.csdn.net/Vincent123Mei/article/details/107215845

版权

6 篇文章 1 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

“标准化”和“归一化”主要是指代四种Feature scaling(特征缩放)的方法

Rescaling ( min-max normalization) 有时简称normalization
$x^{'} = \frac{x - min(x)}{ max(x) - min(x)}$
将数值范围缩放到(0， 1)，不改变数据分布

特点：本归一化方法比较适用于数值比较集中的情况

缺点：如果max和min不稳定，很容易使得归一化结果不稳定，使得后续使用效果不佳。实际使用中用经验常量代替max和min

应用场景：在不涉及距离度量、协方差计算、数据不符合正太分布的时候，可以使用第一种方法或其他归一化方法（不包括Z-score方法）。比如图像处理中，将RGB图像转换为灰度图像后将其值限定在[0 255]的范围
Mean normalization
$x^{'} = \frac {x - mean(x)}{max(x)- min(x)}$
Standardization (Z-score normalization)
$x^{'} = \frac{x - mean(x)}{\sigma}$
将数值范围缩放到0附近，但不改变数据分布，处理后的数据符合标准正态分布，即均值为0，标准差为1

本方法要求原始数据的分布可以近似为高斯分布，否则归一化的效果很差

应用场景：在分类、聚类算法中，需要使用距离来度量相似性的时候，或者使用PCA技术进行降为的时候，标准化方法效果较好
Scaling to unit length
$x^{'} = \frac {x}{\left \|\vec x \right \|}$

mean 归一化
标准化

可以看到 mean 归一化和标准化都将数据分布中心移到原点，

归一化没有改变数据分布的形状，而标准化使样本数据的分布近似为某种分布（通常为正态分布）。

关注

专栏目录