机器学习为什么归一化（normalization）

最新推荐文章于 2024-06-26 10:13:29 发布

面包片片

最新推荐文章于 2024-06-26 10:13:29 发布

阅读量2.5k

点赞数 5

分类专栏：机器学习文章标签：神经网络

本文链接：https://blog.csdn.net/qq_44919414/article/details/124290149

版权

2 篇文章 0 订阅

订阅专栏

将数据的数值规约到（0,1）或者是（-1,1）区间，让各维度数据分布接近，避免模型参数被分布范围较大或者较小的数据支配。

机器学习的目标就是不断优化损失函数，使其值最小，未归一化时，使用梯度下降时，梯度方向会偏离最小值方向，使梯度更新总很多弯路，归一化之后，损失函数曲线变得比较圆，有利于梯度下降。
在这里插入图片描述

加快梯度下降,损失函数收敛;—速度上
提升模型精度–也就是分类准确率.(消除不同量纲,便于综合指标评价,提高分类准确率)—质量上
防止梯度爆炸(消除因为数据输入差距(1和2000)过大,而带来的输出差距过大(0.8,999),进而在反向传播的过程当中,导致梯度过大(因为反向传播的过程当中进行梯度计算,会使用的之前对应层的输入x),从而形成梯度爆炸)—稳定性上

Z-Score
当数据在多个维度上存在显著的大小差的数值时怎么办？例如，如果一个维度的值从 10 到 100，另一维度的值从 100 到 100,000，则很难比较两者的相对变化。Z-Score 将数据按比例缩放,使之落入一个特定区间。
Linear normalization (“Max-Min”)
线性归一化
Batch Normalization
BN论文解释：由于两个数据不在同一范围，但它们是使用相同的学习率，导致梯度下降轨迹沿一维来回振荡，从而需要更多的步骤才能达到最小值。且此时学习率不容易设置，学习率过大则对于范围小的数据来说来回震荡，学习率过小则对范围大的数据来说基本没什么变化。当进行归一化后，特征都在同一个大小范围，则loss landscape像一个碗，学习率更容易设置，且梯度下降比较平稳。

方法：在一个batch中，在每一BN层中，对每个样本的同一通道，计算它们的均值和方差，再对数据进行归一化，最后使用两个可学习参数gamma和beta对归一化的数据进行缩放和移位。
此外，在训练过程中还保存了每个mini-batch每一BN层的均值和方差，最后求所有mini-batch均值和方差的期望值，以此来作为推理过程中该BN层的均值和方差。