归一化

最新推荐文章于 2023-11-03 17:13:11 发布

deep-己

最新推荐文章于 2023-11-03 17:13:11 发布

阅读量552

点赞数 2

分类专栏：网络学习文章标签：归一化

网络学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

参考来源https://zhuanlan.zhihu.com/p/27627299
https://www.cnblogs.com/chaosimple/p/3227271.html
https://www.cnblogs.com/sddai/p/6250094.html
http://ufldl.stanford.edu/wiki/index.php/数据预处理
 http://www.cnblogs.com/LBSer/p/4440590.html
数据标准化（归一化）处理是数据挖掘的一项基础工作，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。
归一化后有什么好处呢？原因在于神经网络学习过程本质就是为了学习数据分布，一旦训练数据与测试数据的分布不同，那么网络的泛化能力也大大降低；另外一方面，一旦每批训练数据的分布各不相同(batch 梯度下降)，那么网络就要在每次迭代都去学习适应不同的分布，这样将会大大降低网络的训练速度，这也正是为什么我们需要对数据都要做一个归一化预处理的原因。
（应该就是对寻求最优解加快了速度）
对于深度网络的训练是一个复杂的过程，只要网络的前面几层发生微小的改变，那么后面几层就会被累积放大下去。一旦网络某一层的输入数据的分布发生改变，那么这一层网络就需要去适应学习这个新的数据分布，所以如果训练过程中，训练数据的分布一直在发生变化，那么将会影响网络的训练速度。

对于归一化处理，下面从寻找最优解这个角度作为参考。
例子
假定为预测房价的例子，自变量为面积，房间数两个，因变量为房价。
那么可以得到的公式为：
在这里插入图片描述
未归一化：

归一化后：

为什么会出现上述两个图，并且它们分别代表什么意思。

我们在寻找最优解的过程也就是在使得损失函数值最小的theta1,theta2。

上述两幅图代码的是损失函数的等高线。

我们很容易看出，当数据没有归一化的时候，面积数的范围可以从0-1000，房间数的范围一般为0~10，可以看出面积数的取值范围远大于房间数。

影响
这样造成的影响就是在画损失函数的时候，

数据没有归一化的表达式，可以为：
在这里插入图片描述

造成图像的等高线为类似椭圆形状，最优解的寻优过程就是像下图所示：
在这里插入图片描述
而数据归一化之后，损失函数的表达式可以表示为：

其中变量的前面系数几乎一样，则图像的等高线为类似圆形形状，最优解的寻优过程像下图所示：

从上可以看出，数据归一化后，最优解的寻优过程明显会变得平缓，更容易正确的收敛到最优解。

归一化后加快了梯度下降求最优解的速度;
归一化有可能提高精度;
在这里插入图片描述

加快梯度下降求解速度
如上图所示，蓝色的圈圈图代表的是两个特征的等高线。其中左图两个特征X1和X2的区间相差非常大，X1区间是[0,2000]，X2区间是[1,5]，其所形成的等高线非常尖。当使用梯度下降法寻求最优解时，很有可能走“之字型”路线（垂直等高线走），从而导致需要迭代很多次才能收敛；

而右图对两个原始特征进行了归一化，其对应的等高线显得很圆，在梯度下降进行求解时能较快的收敛。
因此如果机器学习模型使用梯度下降法求最优解时，归一化往往非常有必要，否则很难收敛甚至不能收敛。
归一化有可能提高精度
一些分类器需要计算样本之间的距离（如欧氏距离），例如KNN。如果一个特征值域范围非常大，那么距离计算就主要取决于这个特征，从而与实际情况相悖（比如这时实际情况是值域范围小的特征更重要）。

这也是数据为什么要归一化的一个原因。
以下是两种常用的归一化方法：

一、min-max标准化（Min-Max Normalization）

也称为离差标准化，我们的目的是通过对数据的每一个维度的值进行重新调节（这些维度可能是相互独立的），使得最终的数据向量落在 [0,1]或[ − 1,1] 的区间内（根据数据情况而定）。这对后续的处理十分重要，因为很多默认参数（如 PCA-白化中的 epsilon）都假定数据已被缩放到合理区间。例子:在处理自然图像时，我们获得的像素值在 [0,255] 区间中，常用的处理是将这些像素值除以 255，使它们缩放到 [0,1] 中.
这种算法是对原始数据的线性变换，使结果值映射到[0 - 1]之间。转换函数如下：
在这里插入图片描述

其中max为样本数据的最大值，min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时，可能导致max和min的变化，需要重新定义。
适用场景
这种归一化方法比较适用在数值比较集中的情况。但是，如果max和min不稳定，很容易使得归一化结果不稳定，使得后续使用效果也不稳定，实际使用中可以用经验常量值来替代max和min。而且当有新数据加入时，可能导致max和min的变化，需要重新定义。
在不涉及距离度量、协方差计算、数据不符合正太分布的时候，可以使用第一种方法或其他归一化方法。比如图像处理中，将RGB图像转换为灰度图像后将其值限定在[0 255]的范围。

二、Z-score标准化方法

这种方法给予原始数据的均值（mean）和标准差（standard deviation）进行数据的标准化。经过处理的数据符合标准正态分布，即均值为0，标准差为1，转化函数为：

在这里插入图片描述

其中u为所有样本数据的均值，o为所有样本数据的标准差。
在分类、聚类算法中，需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候，第二种方法(Z-score standardization)表现更好。

deep-己

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
归一化

在喂给机器学习模型的数据中，对数据要进行归一化的处理。为什么要进行归一化处理，下面从寻找最优解这个角度给出自己的看法。例子假定为预测房价的例子，自变量为面积，房间数两个，因变量为房价。那么可以得到的公式为：未归一化：归一化后：为什么会出现上述两个图，并且它们分别代表什么意思。我们在寻找最优解的过程也就是在使得损失函数值最小的theta1,theta2。上述两幅图代码的是损失...
复制链接

扫一扫