初探Batch Normalization

最新推荐文章于 2024-07-30 12:10:19 发布

baiyu33

最新推荐文章于 2024-07-30 12:10:19 发布

阅读量357

点赞数

分类专栏： Caffe

本文链接：https://blog.csdn.net/baiyu33/article/details/81592646

版权

Caffe 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文尝试理解Batch Normalization算法

BN在做什么
BN为什么这么做
BN的反向求导

一些约定/常识

Batch Normalization层简称BN层，或者就叫BN；
神经网络中连续的多个线性变换层，等效于一个线性变换层（x=WU+B)，因而往往是每个线性层后面接一个非线性变换层（激活函数层）；
所谓网络可学习参数，是说网络建立时给它初值，随后每次BP都进行更新，最典型的是weights和bias，BN层中的 $\gamma$ 和 $\beta$ 也是。

BN在做什么

假定batch_size= $m$ ，网络中的某层输出为 $\vec x$ ，并且 $\vec x$ 为BN层的输入。我们约定“一次操作=平移和伸缩变换”，那么BN做了两次这种操作，使得 $\vec x$ 先被标准化，再被逆标准化。

首先,BN将 $\vec x$ 转化到标准正态分布 $N(0,1)$ ，得到 $\vec{\hat x}$ (x hat):

$x i^= x i - μ σ$ $\hat{x_i} = \frac{x_i - \mu }{\sigma}$
其中
$μ = 1 m Σ x i σ = 1 m (x i - μ) 2 - - - - - - - - - - \sqrt$ $\mu = \frac{1}{m}\Sigma{x_i} \\ \sigma=\sqrt{\frac{1}{m}(x_i-\mu)^2}$
其次，BN将 $\vec {\hat x}$ 转化到非标准正态分布 $N(\gamma, \beta)$ ，得到 $\vec{\tilde x}$ (x tilde):

$x i ~ = x i^γ i + β i$ $\tilde{x_i} = \hat{x_i} \gamma_i + \beta_i$
其中 $\gamma_i$ 和 $\beta_i$ 是可学习参数。

BN为什么这么做

网上说法认为BN的前后两次“平移和缩放”操作，使得 $\vec x$ 的分布得到了改变，既不至于都在激活函数的非线性区（例如sigmoid的饱和区），也不至于都在线性区（都在线性区导致激活函数退化为线性变换，让整个网络表达能力退化为单层线性变换）。

个人理解为BN是在为激活函数打补丁，单层的非线性激活函数表达能力理论上可以很强，但出于求导计算方便的考虑，用的都是形式简单的例如ReLU，但缺点是表达能力会不太够，或者说表达出来的特征容易跑偏，就需要调小学习率，但调小学习率又让收敛变慢。BN+ReLU这样的组合，里面包含了 $\gamma$ 和 $\beta$ 这两个可学习参数，那么BN+ReLU的整体，就是在学习一个更好的激活函数。按照这样的理解，Conv+BN+ReLU是可以的，Conv+ReLU+BN也是可以的；甚至可以尝试想一些其他的激活函数。