1.什么是归一化
将数据的数值规约到(0,1)或者是(-1,1)区间,让各维度数据分布接近,避免模型参数被分布范围较大或者较小的数据支配。
2.为什么归一化
机器学习的目标就是不断优化损失函数,使其值最小,未归一化时,使用梯度下降时,梯度方向会偏离最小值方向,使梯度更新总很多弯路,归一化之后,损失函数曲线变得比较圆,有利于梯度下降。
- 加快梯度下降,损失函数收敛;—速度上
- 提升模型精度–也就是分类准确率.(消除不同量纲,便于综合指标评价,提高分类准确率)—质量上
- 防止梯度爆炸(消除因为数据输入差距(1和2000)过大,而带来的输出差距过大(0.8,999),进而在 反向传播的过程当中,导致梯度过大(因为反向传播的过程当中进行梯度计算,会使用的之前对应层的输入x),从而形成梯度爆炸)—稳定性上
3.归一化的方法
- Z-Score
当数据在多个维度上存在显著的大小差的数值时怎么办?例如,如果一个维度的值从 10 到 100,另一维度的值从 100 到 100,000,则很难比较两者的相对变化。Z-Score 将数据按比例缩放,使之落入一个特定区间。
- Linear normalization (“Max-Min”)
线性归一化
- Batch Normalization
BN论文解释:由于两个数据不在同一范围,但它们是使用相同的学习率,导致梯度下降轨迹沿一维来回振荡,从而需要更多的步骤才能达到最小值。且此时学习率不容易设置,学习率过大则对于范围小的数据来说来回震荡,学习率过小则对范围大的数据来说基本没什么变化。当进行归一化后,特征都在同一个大小范围,则loss landscape像一个碗,学习率更容易设置,且梯度下降比较平稳。
方法:在一个batch中,在每一BN层中,对每个样本的同一通道,计算它们的均值和方差,再对数据进行归一化,最后使用两个可学习参数gamma和beta对归一化的数据进行缩放和移位。
此外,在训练过程中还保存了每个mini-batch每一BN层的均值和方差,最后求所有mini-batch均值和方差的期望值,以此来作为推理过程中该BN层的均值和方差。