Batchnorm的主要作用

SEU-WYL

于 2024-05-24 01:22:58 发布

阅读量558

点赞数 4

分类专栏：深度学习dnn 文章标签： dnn

本文链接：https://blog.csdn.net/weixin_42605076/article/details/139160896

版权

182 篇文章 1 订阅

订阅专栏

Batchnorm的主要作用

计算均值和方差：对于每个小批量数据，BatchNorm会计算该批次数据的均值和方差。这是为了确定该批次数据的中心和散布情况。
归一化：通过上述均值和方差，BatchNorm将数据调整到一个标准的分布范围内，通常是零均值和单位方差。这意味着所有数据被调整到相同的尺度。
缩放和平移：为了不限制模型的表示能力，BatchNorm会引入两个可学习的参数：一个是缩放参数，另一个是平移参数。这两个参数允许模型在保持数据标准化的同时，仍然能够灵活地表示不同的特征。

在推理（测试）阶段，BatchNorm不会使用每个小批量的数据均值和方差，因为这些批次在训练阶段已经变化过。相反，它使用在训练过程中累计的整体均值和方差。这确保了模型在训练和推理阶段的一致性。

BatchNorm已经在许多神经网络架构中被广泛应用，尤其是在深度神经网络中。它不仅加快了收敛速度，还显著提高了模型的最终性能。例如，在卷积神经网络（CNN）和循环神经网络（RNN）中，BatchNorm的引入极大地改善了训练效果和模型的准确性。

总结来说，BatchNorm通过标准化每个小批量的数据，减少了内部协变量偏移问题，平滑了损失函数，提高了训练速度和稳定性，同时还能在一定程度上防止过拟合。它已经成为现代深度学习模型中不可或缺的技术之一。

关注

专栏目录