【Datawhale X 李宏毅苹果书 AI夏令营】学习笔记：《深度学习详解》3.7 批量归一化

最新推荐文章于 2024-11-09 18:03:01 发布

大家好我是黄贤真

最新推荐文章于 2024-11-09 18:03:01 发布

阅读量283

点赞数 5

文章标签：人工智能学习笔记

本文链接：https://blog.csdn.net/2403_86986123/article/details/141831256

版权

一、批量归一化的背景与目的

在深度学习中，随着模型深度的增加，训练过程中的梯度消失和梯度爆炸问题愈发严重。为了解决这些问题，提高训练效率，批量归一化（Batch Normalization, BN）被引入。其核心思想是通过在每一层的输入上进行归一化处理，减少内部协变量偏移（Internal Covariate Shift），从而平滑误差表面，优化训练过程。

二、批量归一化的基本原理

批量归一化的基本步骤如下：

计算均值与标准差：对于一个批量内的每个特征，计算其均值（mean）μ\muμ 和标准差（standard deviation）σ\sigmaσ。
归一化：将每个特征减去其均值，再除以其标准差，使其均值为0，标准差为1。即： x^i=xi−μσ\hat{x}_i = \frac{x_i - \mu}{\sigma}x^i=σxi−μ
缩放和平移：为了增加模型的表达能力，批量归一化还引入了可学习的参数 γ\gammaγ 和 β\betaβ，分别用于缩放和平移归一化后的数据： yi=γx^i+βy_i = \gamma \hat{x}_i + \betayi=γx^i+β

通过这种方式，批量归一化不仅消除了特征之间的量纲差异，还保留了模型调整输出分布的灵活性。

三、批量归一化的优势

加快训练速度：通过归一化，批量归一化可以让损失函数的曲面变得更加平滑，从而加快收敛速度。
缓解梯度消失/爆炸问题：在网络的各层之间，归一化可以减少激活函数在极端值区间的分布，从而缓解梯度消失和梯度爆炸问题。
减小对初始化的依赖：由于批量归一化对输入数据进行了标准化处理，模型对权重初始化的敏感度降低，不再需要特别精细的初始化方法。
一定程度上的正则化效果：由于每个批量的数据随机性，批量归一化有助于模型泛化能力的提升，起到了类似正则化的效果。

四、批量归一化在测试中的处理

在测试阶段，由于不再有批量数据，不能直接使用训练时的均值和标准差。因此，在训练过程中，我们通过滑动平均的方法记录训练中每个批次的均值和标准差，并在测试时使用这些移动平均值来归一化测试数据。具体来说：

在训练时，计算每个批次的均值 μ\muμ 和标准差 σ\sigmaσ，并将其滑动平均值记录为 μˉ\bar{\mu}μˉ 和 σˉ\bar{\sigma}σˉ。
在测试时，直接使用 μˉ\bar{\mu}μˉ 和 σˉ\bar{\sigma}σˉ 对输入数据进行归一化。

五、批量归一化的局限性与改进

虽然批量归一化在很多情况下都表现出色，但它也存在一些局限性。例如，在小批量训练或批量大小过小时，批量归一化的效果可能不如预期。为了解决这些问题，研究人员提出了多种改进方案，如层归一化（Layer Normalization）、实例归一化（Instance Normalization）、组归一化（Group Normalization）等，这些方法针对不同场景下的需求，进一步提升了模型的训练效果。

六、总结

批量归一化是深度学习中的一项重要技术，通过对每一层的输入进行归一化，显著提高了模型的训练效率和性能。虽然它也有一定的局限性，但通过不断的改进与创新，批量归一化及其变种已经成为深度学习模型训练中不可或缺的部分。理解和灵活运用这些技术，对于构建高效、稳健的深度学习模型至关重要。

大家好我是黄贤真

关注

5
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫