Batch normalization（批量标准化）

最新推荐文章于 2024-07-08 18:40:23 发布

lankuohsing

最新推荐文章于 2024-07-08 18:40:23 发布

阅读量3.3k

点赞数 2

分类专栏：学习笔记理论学习文章标签：神经网络批量标准化

本文链接：https://blog.csdn.net/thuchina/article/details/80721832

版权

学习笔记同时被 2 个专栏收录

53 篇文章 0 订阅

订阅专栏

理论学习

46 篇文章 1 订阅

订阅专栏

文章目录

简要概括：对每层的激活函数都进行标准化。可以对

z^{[l]}

或者

a^{[l]}

进行标准化，其中前者更常见。

1. Batch normalization原理

对于神经网络中的某些中间值 $z^{[l](i)},i=1,2,\cdots,m$ （下面省略 $l$ ），进行下列的一系列运算：
$\begin{aligned} \mu&=\frac{1}{m}\sum z^{(i)}\\ \sigma ^{2}&=\frac{1}{m}\sum （z^{(i)}-\mu)^2\\ z_{norm}^{(i)}&=\frac{z^{(i)}-\mu}{\sqrt{\sigma^2+\epsilon}}\\ \tilde z^{(i)}&=\gamma z_{norm}^{(i)}+\beta\\ \tag{1-1} \end{aligned}$
其中 $\gamma$ 和 $\beta$ 可以通过学习得到。

2. 在多层神经网络中的具体操作

实际操作时，对每个mini-batch进行batch-normalization。 $b^{[l]}$ 可以设置为零，因为不论它为多少，在batch-normalization时都会被减去。
$\begin{aligned} z^{[l]}&=w^{[l]}a^{[l-1]}\\ z_{norm}^{[l]}&=\frac{z^{[l]}-\mu}{\sqrt{\sigma^2+\epsilon}}\\ \tilde z^{[l]}&=\gamma z_{norm}^{[l]}+\beta^{[l]}\\ \tag{2-1} \end{aligned}$

for t=1…numMiniBatches
compute forward prop on $X^{\{t\}}$
in each hidden layer, use BN to replace $z^{[l]}$ with $\tilde z^{[l]}$
use backprop to compute $dw^{[l]},db^{[l]},d\beta^{[l]},d\gamma^{[l]}$
update parameters(梯度下降方法及其各种改进)

3. Batch normalization有效的原因

类似于对输入层进行标准化的作用，可以加速学习过程。
使得后面的网络层更具有鲁棒性，当前面的网络层变化时，后面的网络层的均值和方差不变。换句话讲，减少了前面层参数和后面层参数之间的耦合
有轻微的正则化效果，因为采用了mini-batch的方法，均值和方差是在mini-batch上计算的而不是整个训练集，所以均值和方差中具有噪声，导致 $\tilde z$ 具有噪声。这个dropout有异曲同工之妙。