数据的中心化，标准化及意义_数据标准化的意义和作用-CSDN博客

本文链接：https://blog.csdn.net/qq_33590958/article/details/96346030

在机器学习回归问题，以及训练神经网络过程中，通常需要对原始数据进行中心化（零均值化）与标准化（归一化）预处理。

目的
通过中心化和标准化处理，最终得到均值为0，标准差为1的服从标准正态分布的数据。
在多指标评价体系中，由于各评价指标的性质不同，通常具有不同的量纲和数量级。当各指标间的水平相差很大时，如果直接用原始指标值进行分析，就会突出数值较高的指标在综合分析中的作用，相对削弱数值水平较低指标的作用。因此，为了保证结果的可靠性，需要对原始指标数据进行标准化处理。

原理
中心化（又叫零均值化）：是指变量减去它的均值。其实就是一个平移的过程，平移后所有数据的中心是（0，0）。
标准化（又叫归一化）：是指数值减去均值，再除以标准差（可以把有量纲量变为无量纲量）。

下图中以二维数据为例：左图表示的是原始数据；中间的是中心化后的数据，数据被移动大原点周围；右图将中心化后的数据除以标准差，得到为标准化的数据，可以看出每个维度上的尺度是一致的（红色线段的长度表示尺度）。
在这里插入图片描述
其实，在不同的问题中，中心化和标准化有着不同的意义，比如在训练神经网络的过程中，通过将数据标准化，能够加速权重参数的收敛。对数据进行中心化预处理，这样做的目的是要增加基向量的正交性（不是很明白这里）。

标准化（归一化）优点及其方法
标准化（归一化）三个优点：
1）归一化后加快了梯度下降求最优解的速度；
如下图，x1的取值为0-2000，而x2的取值为1-5，假如只有这两个特征，对其进行优化时，会得到一个窄长的椭圆形，导致在梯度下降时，梯度的方向为垂直等高线的方向而走之字形路线，这样会使迭代很慢，相比之下，右图的迭代就会很快（理解：也就是步长走多走少方向总是对的，不会走偏）
在这里插入图片描述
2）归一化有可能提高精度。
归一化的另一好处是提高精度，这在涉及到一些距离计算的算法时效果显著，比如算法要计算欧氏距离，上图中x2的取值范围比较小，涉及到距离计算时其对结果的影响远比x1带来的小，所以这就会造成精度的损失。所以归一化很有必要，他可以让各个特征对结果做出的贡献相同。
3）深度学习中数据归一化可以防止模型梯度爆炸。

标准化（归一化）两种方法：
1）min-max标准化（Min-Max Normalization）
也称为离差标准化，是对原始数据的线性变换，使结果值映射到 [0 - 1] 之间。转换函数如下：
在这里插入图片描述
其中max为样本数据的最大值，min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时，可能导致max和min的变化，需要重新定义。
2）Z-score标准化（0-1标准化）方法
这种方法给予原始数据的均值（mean）和标准差（standard deviation）进行数据的标准化。经过处理的数据不一定符合标准正态分布，要看你的原始数据分布，如果原始数据分布是正态的话，那标准化后一定是标准正态分布，反之，则不是标准正态分布，比如原始数据是均匀分布，所以Z-score标准化不会改变原始数据的分布。
转化函数为：
在这里插入图片描述
其中μ为所有样本数据的均值，σ为所有样本数据的标准差。