＜深度学习基础＞ Batch Normalization

最新推荐文章于 2024-07-05 22:10:12 发布

thisiszdy

最新推荐文章于 2024-07-05 22:10:12 发布

阅读量430

点赞数

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/thisiszdy/article/details/132655619

版权

深度学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Batch Normalization批归一化

BN优点

减少了人为选择参数。在某些情况下可以取消dropout和L2正则项参数，或者采取更小的L2正则项约束参数；
减少了对学习率的要求。现在我们可以使用初始很大的学习率或者选择了较小的学习率，算法也能够快速训练收敛；
破坏原来的数据分布，一定程度上缓解过拟合；
减少梯度消失，加快收敛速度，提高训练精度。

步骤

下面给出BN 算法在训练时的过程
输入：上一层输出结果 $X={x_1,x_2,...,x_m}$ ，学习参数 $\gamma,\beta$ ；
算法流程：
（1）计算上一层输出数据的均值
$\mu_{\beta}=\frac{1}{m} \sum_{i=1}^m x_i$
其中， $m$ 是此次训练样本batch的大小。
（2）计算上一层输出数据的标准差
$\sigma_{\beta}^2=\frac{1}{m} \sum_{i=1}^m (x_i-\mu_{\beta})^2$
（3）归一化处理，得到
$\^x_i=\frac{x_i+\mu_{\beta}}{\sqrt{\sigma_{\beta}^2}+\epsilon}$
其中 $\epsilon$ 是为了避免分母为0 而加进去的接近于0 的很小值；
（4）重构，对经过上面归一化处理得到的数据进行重构，得到
$y_i=\gamma \^x_i + \beta$
其中， $\gamma,\beta$ 为可学习参数。

注：上述是BN训练时的过程，但是当在推理时，往往只是输入一个样本，没有所谓的均值 $\mu_{\beta}$ 和标准差 $\sigma_{\beta}^2$ 。此时，均值 $\mu_{\beta}$ 是计算所有batch的 $\mu_{\beta}$ 值的平均值得到，标准差 $\sigma_{\beta}^2$ 采用每个batch的 $\sigma_{\beta}^2$ 的无偏估计得到。