标准化、归一化、中心化

最新推荐文章于 2025-05-14 15:07:12 发布

不论如何未来很美好

最新推荐文章于 2025-05-14 15:07:12 发布

阅读量1.1w

点赞数 17

分类专栏：数据挖掘文章标签：标准化归一化中心化

本文链接：https://blog.csdn.net/qq_36523839/article/details/82919412

版权

数据挖掘专栏收录该内容

51 篇文章

订阅专栏

标准化、归一化、中心化

数据分析及挖掘中常提到的几个概念（数据的标准化、归一化、中心化），虽然经常在用，但可能还是有一些比较生僻的知识容易搞混淆，所以在十月国庆大家都出门上高速堵车的时候抽了点时间对这些概念以我的能力和理解做一个相对系统和浅显的总结。

本篇文章通过个人以前对这些知识的一个先验理解，然后主要查阅和参考了数篇相关知识文档的介绍后，做了如下的总结。(注：尤其是标准化、归一化极容易混淆两者)

标准化：

特点：

对不同特征维度的数据做伸缩变换（数据按比例缩放，使之落入一个小的特定区间），其目是使不同度量之间的特征具有可比性。并且同时不改变原始数据的分布状态。转化为无量纲的纯数值后，便于不同单位或量级的指标能够进行比较和加权。

优点：

1：使得不同度量之间的特征具有可比性；对目标函数的影响体现在几何分布(离散型概率分布)上，而不是数值上

2：不改变原始数据的分布

举例：

根据人的身高和体重预测人的健康指数，假设有如下原始数据是四维：

从上面两个坐标图可以看出，样本在数据值上的分布差距是不一样的，但其几何距离是一致的。而标准化就是一种对样本数据在不同维度上进行一个伸缩变化（而不改变数据的几何距离），也就是不改变原始数据的信息（分布）。这样的好处就是在进行特征提取时，忽略掉不同特征之间的一个度量，而保留样本在各个维度上的信息（分布）。

归一化：

特点：

对不同特征维度的数据做伸缩变换，其目的是使得各个特征维度对目标函数的影响权重是一致的，即使得那些扁平分布得数据伸缩变换成类圆形。这也就改变了原始数据的一个分布。

优点：

1：提高迭代求解的收敛速度

2：提高迭代求解的精度

举例：

从采用大单位的身高和体重这两个特征来看，如果采用标准化，不改变样本在这两个维度上的分布，则左图还会保持二维分布的一个扁平性；而采用归一化则会在不同维度上对数据进行不同的伸缩变化（归一区间，会改变数据的原始距离，分布，信息），使得其呈类圆形。虽然这样样本会失去原始的信息，但这防止了归一化前直接对原始数据进行梯度下降类似的优化算法时最终解被数值大的特征所主导。归一化后，各个特征对目标函数的影响权重是一致的。这样的好处是在提高迭代求解的精度。

1、归一化为什么能提高梯度下降法求解最优解的速度？

当两个特征X1和X2的区间相差非常大，X1区间是[0,2000]，X2区间是 [1,5]，其所形成的等高线非常尖。当使用梯度下降法寻求最优解时，很有可能走“之字型”路线（垂直等高线走），从而导致需要迭代很多次才能收敛；而右图对两个原始特征进行了归一化，其对应的等高线显得很圆，在梯度下降进行求解时能较快的收敛。因此如果机器学习模型使用梯度下降法求最优解时，归一化往往非常有必要，否则很难收敛甚至不能收敛。

2、归一化有可能提高精度

一些分类器需要计算样本之间的距离（如欧氏距离），例如KNN。如果一个特征值域范围非常大，那么距离计算就主要取决于这个特征，从而与实际情况相悖（比如这时实际情况是值域范围小的特征更重要）。

修改总结原作者对提问者的回答如下：

问题：

归一化和标准化，都是将点平移然后缩短距离，从这个角度看，二者有什么区别呢？为什么标准化不改变数据分布（几何距离）？

回答：

第一，如果把加减看作平移，乘除看作放缩的话，那么从归一化和标准化的公式就能看出两者的区别。平移对于前者以一个最小值为参照，后者以均值为参照。缩放对于前者以最大差值参照，后者以标准差。第二，标准化不改变几何距离是其公式定义的原因，可以进行数学推导，类似于SVM的函数距离到几何距离，由公式可以推导。

以上对两个容易混淆的概念（标准化、归一化）做了一个解释，但是需要根据实际的数据或场景需求来使用，以免适得其反，如：归一化后虽然平衡了权重，但也会或多或少破坏数据的结构。

常用的标准化方法（z-score标准化）：