Batch Normalization在推理时如何作用？

最新推荐文章于 2024-09-02 15:20:19 发布

正在输入中。

最新推荐文章于 2024-09-02 15:20:19 发布

阅读量1.3k

点赞数 18

文章标签：深度学习

本文链接：https://blog.csdn.net/Zzzzyc_/article/details/140452060

版权

Batch Normalization（批归一化）是一种在深度学习中广泛使用的正则化技术，其主要目的是提高训练速度和稳定性。

Batch Normalization的核心思想是在每一层的输入进行标准化，使其均值接近0，方差接近1。具体过程如下：

标准化：
使用计算得到的均值和方差，对输入进行标准化： $\hat{x}_i = \frac{x_i - \mu}{\sqrt{\sigma^2 + \epsilon}} \quad \text{for } i = 1, 2, \ldots, m$ 其中， $\epsilon$ 是一个小常数，用于防止除以零。
缩放和偏移：
引入可学习的参数 $\gamma$ 和 $\beta$ 进行缩放和偏移： $y_i = \gamma \hat{x}_i + \beta$

在推理阶段，Batch Normalization的处理与训练阶段不同，主要体现在以下几个方面：

使用移动平均：
在训练过程中，Batch Normalization会计算每个批次的均值和方差，并同时更新训练期间的移动平均均值（running mean）和方差（running variance）。在推理时，模型使用这些累积得到的移动平均值，而不是当前批次的均值和方差。
推理时的公式：
在推理阶段，对于输入 $x$ ，Batch Normalization的输出为： $\gamma \frac{x - \mu_{\text{running}}}{\sqrt{\sigma_{\text{running}}^2 + \epsilon}} + \beta$ 其中， $\mu_{\text{running}}$ 和 $\sigma_{\text{running}}^2$ 是在训练过程中更新的移动平均均值和方差。
稳定性和一致性：
通过使用移动平均的均值和方差，Batch Normalization在推理时能够保持输出的一致性，避免因小批次引入的波动。这使得模型在不同输入上的表现更加稳定。