有batch normalization的卷积层的前向和后向传播

最新推荐文章于 2024-05-10 09:44:27 发布

rosqin

最新推荐文章于 2024-05-10 09:44:27 发布

阅读量1k

点赞数

分类专栏： CNN 文章标签：卷积神经网络 CNN DNN forward backward

本文链接：https://blog.csdn.net/weixin_41665225/article/details/84197727

版权

CNN 专栏收录该内容

7 篇文章 1 订阅

订阅专栏

Batch Normalization笔记

Batch Normalization的来源
加了Batch Normalization的卷积层

Batch Normalization的来源

简化版的Convolutional Layer

$X^{(l+1)}=f(Y^l)=f(3d\_conv(X^l,F)+b)$
$f$ 是激活函数，一般是 $L e a k y$ 或者 $R e L U$ ，早年比较火的 $sigmoid(x)=1/(1 - e^{-x})$ 函数因为计算量大（要计算 $e^{-x}$ ），效果不好（容易出现梯度消失）已经基本不用。

但对于 $y = s i g m o i d (x)$ ， $y$ 的均值为0，如果不考虑计算量，将来可以研究研究。
为了保持书写习惯，下文用 $W$ 表示卷积核。

下面分析中假设卷积核数量为1， $X^l$ 的深度为1,3d卷积 $3d\_conv$ 换成 2d卷积 $c o n v 2$ 。

梯度消失的问题

在神经网络很深的情况下，数据向前传播的时候经常容易进入饱和区（不过感觉用 $L e a k y$ 或者 $R e L U$ 作为激活函数这个问题不大），对数据进行规范化，使其满足（至少看起来满足）高斯分布，可以避免进入饱和区而出现梯度消失的问题。

Normalization的变体

最基本的数据规范化

对输入进行规范化。若 $X$ 是 $N \times N$ 的矩阵。
$\mu = \frac{1}{N^2}\sum_{i=0}^{N-1}\sum_{j=0}^{N-1}x_{i,j}$

$\quad\quad\sigma^2= \frac{1}{N^2}\sum_{i=0}^{N-1}\sum_{j=0}^{N-1}(x_{i,j}-\mu)^2$

$\quad\quad\quad\quad\quad\quad\sigma=\sqrt {\sigma^2}= \frac{1}{N}\sqrt {\sum_{i=0}^{N-1}\sum_{j=0}^{N-1}(x_{i,j}-\mu)^2}$

$\hat{X}=\begin{cases}\frac{X-\mu}{\sigma} \quad\sigma\neq0\\X\quad\quad\sigma=0\end{cases}\quad$

批规范化

一小批（Batch）的数据平均化的规范化。吸取了mini batch-SGD的思路，为的应该是增加数据的样本空间，记Batch数为 $m$ ，Batch Normalization的均值为 $\mu'$
$\overline \mu=\frac{1}{m}\sum_{i\in m}\mu_i,\quad\quad\overline \sigma=\frac{1}{m}\sum_{i\in m}\sigma_i$
$\hat{X}=\begin{cases}\frac{X-\overline\mu}{\overline\sigma} \quad\overline\sigma\neq0\\X\quad\quad\overline\sigma=0\end{cases}\quad$

问题来了，如果 $\overline\sigma=0$ ，那说明全部的数据都是 $\overline\mu=0$ ，这样的数据我们训练它有啥意义？这个且排除掉，得到

$\hat X=\frac{X-\overline\mu}{\overline \sigma}$

有论文说 $m$ 应该取32。64，128，256等数也应该试试看。也有论文说 $m$ 过大的话效果可能会较差。

在Yolo中，默认的输入尺寸是416×416（浮点数），一级中最多有256个3×3的卷积核，一个卷积结果需要的内存存储量为416×416×256÷1024÷1024=42.25MB，如果 $m = 32$ ， $\hat X$ 的内存需求为1352MB≈1.32GB。

但深度网络中，不见得上面计算的 $\hat X$ 未必是我们想要的，所以要有机会对其进行修正。
$Y=\gamma \hat X+\beta\quad$
初始值 $\gamma_0=1, \beta_0=0$

加了Batch Normalization的卷积层

Batch Normalization放在哪里

放在卷积之后，激活之前，即从原来的
$Y^l=conv2(X^l,W)+b$
变成
$Y^l=Y=\gamma \hat Z^l+\beta =\gamma^l \left(\frac {conv2(X^l,W)-\overline\mu^l}{\overline\sigma^l}\right)+\beta^l$

这里 $b$ 被忽略，合并到 $\beta$ 里面了。且暂不考虑 $\overline\sigma=0$ 的情况。

增加一个变量 $Z^l$ ， $Z^l=conv2(X^l,W)$ 。

前向传播算法

为简单考虑， $X^l$ 的通道数为1，唯一卷积核为 $W^l$ 。卷积层的输出
$X^{l+1}=f(Y^l)=f\left (\gamma^l \left(\frac {conv2(X^l,W^l)-\overline\mu^l}{\overline\sigma^l}\right)+\beta^l \right )$

反向传播算法

已知 $dX^{l+1}$ ，也就是 $X^{l+1}$ 的导数，求以下值：

$dX^l$ ，为了往后面一层继续传播，使 $x_{i,j}\gets x_{i,j}-\eta·dx_{i,j}$
$dW^l$ ，为了更新本层的卷积参数，使 $w_{i,j}\gets w_{i,j}-\eta·dw_{i,j}$
$d\gamma^l$ ， $d\beta^l$ 为了更新本层的规范化参数

$dX^{l+1}$ 准确讲应该是 $\frac{\Delta E}{\Delta X^{l+1}}$ ，而 $dX^l=\frac{\Delta E}{\Delta X^l}=\frac{\Delta E}{\Delta X^{l+1}}·\frac{\Delta X^{l+1}}{\Delta X^l}$

因此， $dY^l=dX^{l+1}·f'(Y)$ 。

我们从 $dY^l$ 开始。

$d\gamma^l$ 和 $d\beta^l$ 的推导

$d\gamma^l=dY^l·\frac{\Delta Y^l}{\Delta \gamma^l}=dY^l·\hat X^l$

在实际系统中， $\hat X$ , $dY^l$ 为 $N \times N$ 矩阵， $\gamma$ 和 $\beta$ 为浮点数（不是数组也不是矩阵）

后续的更新计算中，也希望有使 $\gamma\gets \gamma-\eta·d\gamma$ 的形式。，因此需要有 $d\gamma^l$ 从 $N \times N$ 矩阵到浮点数的转换方式。Understanding the backward pass through Batch Normalization Layer中用的算法是 $d\gamma^l=\sum_i \sum_j \hat x_{i,j}^l·dy^l_{i,j}$ ，（和推导过程不同）

类似地， $d\beta^l=\sum_i \sum_j dy^l_{i,j}$ 。

$dX^l$ 的推导

显然， $\partial Y^l/\partial \hat Z=\gamma^l$ 。

又有
$dX^l=dY^l·\frac{\partial Y^l}{\partial \hat Z^l}·\frac{\partial \hat Z^l}{\partial X^l}=dY^l·\gamma^l·\frac{\partial \hat Z^l}{\partial X^l}$

变成了计算 $\partial \hat Z^l / \partial X^l$ 的问题了，先计算 $\partial \hat Z^l / \partial Z^l$ 。

$\hat Z=\frac{Z-\overline\mu}{\overline \sigma}$

对于Batch Normalizaiton ，

$\overline\mu=\frac{1}{m}\sum_{i \in m}\frac{1}{N^2}\sum_{j \in N}\sum_{k \in N} z_{j,k}^{(i)}$

$\overline\sigma=\frac{1}{m}\sum_{i \in m}\frac{1}{N}\sum_{j \in N}\sum_{k \in N} \sqrt{ \left( z_{j,k}^{(i)}-\overline\mu \right)^2}$
即
$\overline\sigma=\frac{1}{m}\sum_{i \in m}\frac{1}{N}\sum_{j \in N}\sum_{k \in N} \left| z_{j,k}^{(i)}-\overline\mu \right|$

$Z$ 的变化会引起 $\overline \mu$ 和 $\overline \sigma$ 变化，我们需要计算 $\overline \mu$ 和 $\overline \sigma$ 的导数值。但目前的这个 $\overline \sigma$ 是有绝对值号的，不可导。给它做一点小小的处理：

$\overline\sigma=\frac{1}{m}\sum_{i \in m}\frac{1}{N}\sum_{j \in N}\sum_{k \in N} \sqrt{ \left( z_{j,k}^{(i)}-\overline\mu \right)^2+\epsilon }$

$\epsilon$ 是一个很小的常数，通常取值1.0e-8可以，这样 $\overline\sigma$ 的值基本不会改变，但可导了。

$\frac{\partial \hat Z}{\partial \overline \sigma}=\frac{1}{\overline \sigma^2}, \quad\quad\frac{\partial \hat Z}{\partial \overline \mu}^*=-\frac{1}{\overline \sigma}$

接着求 $\partial\overline \sigma/\partial Z$ 和 $\partial\overline \mu/\partial Z$

考虑到Batch Normalizaiton中一个batch中的训练样本相互独立，因此
$\frac{\partial \overline\mu}{\partial z_{i,j}}=\frac{1}{m·N^2}$
记
$t_{i,j}=z_{i,j}-\mu$ , $\overline\sigma(t_{i,j})=\frac{\sqrt{t_{i,j}^2+\epsilon}}{m·N}$ , $\overline\sigma'(t_{i,j})=\frac{t_{i,j}}{m·N·\sqrt{t_{i,j}^2+\epsilon}}\approx \frac{z_{i,j}-\mu}{m·N·\overline\sigma}$
因此，
$\frac{\partial \overline \sigma}{\partial Z}=\frac{1}{m·N·\overline\sigma}·R_{N×N}$
$\frac{\partial \overline \sigma}{\partial \overline \mu}=\frac{-1}{m·N·\overline\sigma}·R_{N×N}$
$\frac{\partial \hat Z}{\partial Z}=\frac{\partial \hat Z}{\partial Z}^*+\frac{\partial \hat Z}{\partial \overline \sigma}·\frac{\partial \overline \sigma}{\partial Z}+\frac{\partial \hat Z}{\partial \overline \sigma}·\frac{\partial \overline \sigma}{\partial \overline \mu}·\frac{\partial \overline \mu}{\partial Z}+\frac{\partial \hat Z}{\partial \overline \mu}^*·\frac{\partial \overline \mu}{\partial Z}\\=\frac{1}{\overline\sigma}+\frac{1}{\overline\sigma^2}·\frac{1}{m·N·\overline\sigma}+\frac{1}{\overline\sigma^2}·\left(\frac{-1}{m·N·\overline\sigma}\right)·\frac{1}{m·N^2}+\left(-\frac{1}{\overline \sigma}\right)·\frac{1}{m·N^2}\\=\frac{1}{\overline\sigma}·R_{N×N}+\frac{1}{m·N·\overline\sigma}·\left(\frac{1}{\overline\sigma^2}-\frac{1}{m·N^2\overline\sigma^2}-\frac{1}{N}\right)·R_{N×N}$

$R_{N×N}$ 是元素全为1的 $N \times N$ 矩阵。

在Yolo中， $N$ 通常为416以上的值， $\overline\sigma$ 接近0.1的倍数，当 $m$ 取32时，式子的第二项和第一项相比几乎可以忽略不计。因此，我认为 $\partial \hat Z/\partial Z=1/\overline\sigma·R_{N×N}$ 即可。减少很多计算量。

中间的推导可能有错误，不过不影响最终的结论。

卷积部分的计算

见我之前写的文章卷积神经网络CNN的前向和后向传播（二）

其他

Batch Normalization部分，借一张图，来自Understanding the backward pass through Batch Normalization Layer

在这里插入图片描述

rosqin

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
有batch normalization的卷积层的前向和后向传播

Batch Normalization笔记Batch Normalization的来源简化版的Convolutional Layer梯度消失的问题Normalization的变体最基本的数据规范化批规范化加了Batch Normalization的卷积层Batch Normalization放在哪里前向传播算法反向传播算法Batch Normalization的来源简化版的Convolutio...
复制链接

扫一扫