4. 前向/反向传播——Batch Normalization

pgsld2333

已于 2022-01-19 11:12:51 修改

阅读量395

点赞数

文章标签： batch 深度学习开发语言

于 2022-01-19 10:59:14 首次发布

本文链接：https://blog.csdn.net/pgsld2333/article/details/122576258

版权

文章目录

参考资料
4. Batch Normalization

参考资料

cs231n Course Materials: Backprop
Derivatives, Backpropagation, and Vectorization
cs231n Lecture 4:Neural Networks and Backpropagation
cs231n Assignment 2
笔记: Batch Normalization及其反向传播

4. Batch Normalization

前向传播

"""
	Forward pass for batch normalization.

    Input:
    - X: Data of shape (N, D)
    - gamma: Scale parameter of shape (D,)
    - beta: Shift paremeter of shape (D,)
    - bn_param: Dictionary with the following keys:
      - mode: 'train' or 'test'; required
      - eps: Constant for numeric stability
      - momentum: Constant for running mean / variance.
      - running_mean: Array of shape (D,) giving running mean of features
      - running_var Array of shape (D,) giving running variance of features

    Returns a tuple of:
    - Y: of shape (N, D)
    - cache: A tuple of values needed in the backward pass
"""

$\mu_{j}=\frac{1}{N}\sum_{i=1}^{N}{X_{i,j}}\tag{4.1}$
$\sigma_j^2=\frac{1}{N}\sum_{i=1}^{N}{\left(X_{i,j}-\mu_j\right)^2}\tag{4.2}$
$\hat{X}_{i,j}=\frac{X_{i,j}-\mu_j}{\sqrt{\sigma^2_{j}+\epsilon}}\tag{4.3}$
在式(4.3)中， $\epsilon$ 是一个非常小的正数，防止分母变成0。

在此基础上，引入可学习参数 $\beta$ 、 $\gamma$ ：
$Y_{i,j}=\gamma_j\hat{X}_{i,j}+\beta_j\tag{4.4}$
需要注意，式(4.1)和式(4.2)计算的均值和方差只在训练阶段使用，测试阶段使用的均值和方差可由训练阶段的均值和方差求滑动平均值得到。

反向传播

将上述计算过程进行更细的拆分，就可得到下面的计算图：

在这里插入图片描述

下面从后往前推导反向传播。
$Y_{i,j}=\hat{X}^\gamma_{i,j}+\beta_j\tag{4.5}$
由式(4.5)可得：
$\begin{aligned}\frac{\partial{L}}{\partial{\beta_j}}&=\sum_{i}{\frac{\partial{L}}{\partial{Y_{i,j}}}\frac{\partial{Y_{i,j}}}{\partial{\beta_j}}}\\&=\sum_{i}{\frac{\partial{L}}{\partial{Y_{i,j}}}\cdot1}\\&=\sum_{i}{\frac{\partial{L}}{\partial{Y_{i,j}}}}\end{aligned}\tag{4.6}$

$\begin{aligned}\frac{\partial{L}}{\partial{\hat{X}^{\gamma}_{i,j}}}&=\frac{\partial{L}}{\partial{Y_{i,j}}}\frac{\partial{Y_{i,j}}}{\partial{\hat{X}^{\gamma}_{i,j}}}\\&=\frac{\partial{L}}{\partial{Y_{i,j}}}\cdot1\\&=\frac{\partial{L}}{\partial{Y_{i,j}}}\end{aligned}\tag{4.7}$

$\hat{X}^\gamma_{i,j}=\gamma_j\hat{X}_{i,j}\tag{4.8}$
由式(4.8)可得
$\begin{aligned}\frac{\partial{L}}{\partial{\gamma_j}}&=\sum_{i}{\frac{\partial{L}}{\partial{\hat{X}_{i,j}^{\gamma}}}\frac{\partial{\hat{X}_{i,j}^{\gamma}}}{\partial{\gamma_j}}}\\&=\sum_{i}{\frac{\partial{L}}{\partial{\hat{X}_{i,j}^{\gamma}}}\hat{X}_{i,j}}\end{aligned}\tag{4.9}$

$\begin{aligned}\frac{\partial{L}}{\partial{\hat{X}_{i,j}}}&=\frac{\partial{L}}{\partial{\hat{X}_{i,j}^{\gamma}}}\frac{\partial{\hat{X}_{i,j}^{\gamma}}}{\partial{\hat{X}_{i,j}}}\\&=\frac{\partial{L}}{\partial{\hat{X}_{i,j}^{\gamma}}}\gamma_j\end{aligned}\tag{4.10}$

$\hat{X}_{i,j}=(1/\hat{\sigma}_j)X^m_{i,j}\tag{4.11}$
由式(4.11)可得
$\begin{aligned}\frac{\partial{L}}{\partial{(1/\hat{\sigma}_j)}}&=\sum_{i}{\frac{\partial{L}}{\partial{\hat{X}_{i,j}}}\frac{\partial{\hat{X}_{i,j}}}{\partial{(1/\hat{\sigma}_j)}}}\\&=\sum_{i}{\frac{\partial{L}}{\partial{\hat{X}_{i,j}}}X^m_{i,j}}\end{aligned}\tag{4.12}$

$1/\hat{\sigma}_j=\frac{1}{\hat{\sigma}_{j}}\tag{4.13}$
由式(4.13)可得
$\begin{aligned}\frac{\partial{L}}{\partial{\hat{\sigma}_j}}&=\frac{\partial{L}}{\partial{(1/\hat{\sigma}_j)}}\frac{\partial{(1/\hat{\sigma}_j)}}{\partial{\hat{\sigma}_j}}\\&=-\frac{\partial{L}}{\partial{(1/\hat{\sigma}_j)}}\frac{1}{\hat{\sigma}_j^2}\\&=-\frac{\partial{L}}{\partial{(1/\hat{\sigma}_j)}}\frac{1}{\sigma_j^2+\epsilon}\end{aligned}\tag{4.14}$

$\hat{\sigma}_j=\sqrt{\sigma_j^2+\epsilon}\tag{4.15}$
由式(4.15)可得
$\begin{aligned}\frac{\partial{L}}{\partial{\sigma_j^2}}&=\frac{\partial{L}}{\partial{\hat{\sigma}_j}}\frac{\partial{\hat{\sigma}_j}}{\partial{\sigma_j^2}}\\&=\frac{\partial{L}}{\partial{\hat{\sigma}_j}}\frac{1}{2\sqrt{\sigma^2_j+\epsilon}}\end{aligned}\tag{4.16}$

$\sigma^2_j=\frac{1}{N}\sum_i{X^2_{i,j}}\tag{4.17}$
由式(4.17)可得
$\begin{aligned}\frac{\partial{L}}{\partial{X_{i,j}^2}}&=\frac{\partial{L}}{\partial{\sigma_j^2}}\frac{\partial{\sigma_j^2}}{\partial{X_{i,j}^2}}\\&=\frac{\partial{L}}{\partial{\sigma_j^2}}\frac{1}{N}\tag{4.18}\end{aligned}$

$X^2_{i,j}=\left(X^m_{i,j}\right)^2\tag{4.19}$
由式(4.11)和式(4.19)可得
$\begin{aligned}\frac{\partial{L}}{\partial{X_{i,j}^m}}&=\frac{\partial{L}}{\partial{\hat{X}_{i,j}}}\frac{\partial{\hat{X}_{i,j}}}{\partial{X^m_{i,j}}}+\frac{\partial{L}}{\partial{X^2_{i,j}}}\frac{\partial{X^2_{i,j}}}{\partial{X^m_{i,j}}}\\&=\frac{\partial{L}}{\partial{\hat{X}_{i,j}}}(1/\hat{\sigma}_j)+\frac{\partial{L}}{\partial{X^2_{i,j}}}\cdot2X^m_{i,j}\end{aligned}\tag{4.20}$

$X^m_{i,j}=X_{i,j}-\mu_j\tag{4.21}$

$\begin{aligned}\frac{\partial{L}}{\partial{\mu_j}}&=\sum_i{\frac{\partial{L}}{\partial{X^m_{i,j}}}\frac{\partial{X^m_{i,j}}}{\partial{\mu_j}}}\\&=\sum_i{\frac{\partial{L}}{\partial{X^m_{i,j}}}\cdot(-1)}\\&=-\sum_i{\frac{\partial{L}}{\partial{X^m_{i,j}}}}\end{aligned}\tag{4.22}$

$\mu_j=\frac{1}{N}\sum_i{X_{i,j}}\tag{4.23}$
由式(4.21)和式(4.23)得
$\begin{aligned}\frac{\partial{L}}{\partial{X_{i,j}}}&=\frac{\partial{L}}{\partial{X^m_{i,j}}}\frac{\partial{X^m_{i,j}}}{\partial{X_{i,j}}}+\frac{\partial{L}}{\partial{\mu_j}}\frac{\partial{\mu_j}}{\partial{X_{i,j}}}\\&=\frac{\partial{L}}{\partial{X^m_{i,j}}}\cdot1+\frac{\partial{L}}{\partial{\mu_j}}\frac{1}{N}\end{aligned}\tag{4.24}$

以上，即为Batch Normalization的反向传播计算过程。

反向传播<简化版本>

实际上，可以将刚才的计算图进行简化(把一些节点合起来)，从而减少中间变量。然后这个图不知道还算不算计算图，，，其实就是按着最开始的公式硬算2333。
在这里插入图片描述根据式(4.1-4)可得
$\left\{\begin{aligned}\mu_j&=\frac{1}{N}\sum_i{X_{i,j}}\\\hat{\sigma}_{j}&=\sqrt{\frac{1}{N}\sum_i{\left(X_{i,j}-\mu_j\right)^2}+\epsilon}\\\hat{X}_{i,j}&=\frac{X_{i,j}-\mu_j}{\hat{\sigma_j}}\\Y_{i,j}&=\gamma_j\hat{X}_{i,j}+\beta_j\end{aligned}\right.\tag{4.25}$
$\frac{\partial{L}}{\partial{\beta_j}}=\sum_i{\frac{\partial{L}}{\partial{Y_{i,j}}}}\frac{\partial{Y_{i,j}}}{\partial{\beta_j}}=\sum_i{\frac{\partial{L}}{\partial{Y_{i,j}}}}\tag{4.26}$
$\frac{\partial{L}}{\partial{\gamma_j}}=\sum_i{\frac{\partial{L}}{\partial{Y_{i,j}}}}\frac{\partial{Y_{i,j}}}{\partial{\gamma_j}}=\sum_i{\frac{\partial{L}}{\partial{Y_{i,j}}}\hat{X}_{i,j}}\tag{4.27}$
$\frac{\partial{L}}{\partial{\hat{X}_{i,j}}}=\frac{\partial{L}}{\partial{Y_{i,j}}}\frac{\partial{Y_{i,j}}}{\partial{\hat{X}_{i,j}}}=\frac{\partial{L}}{\partial{Y_{i,j}}}\gamma_j\tag{4.28}$

$\begin{aligned}\frac{\partial{L}}{\partial{\hat{\sigma}_{j}}}&=\sum_{i=1}^N{\frac{\partial{L}}{\partial{\hat{X}_{i,j}}}\frac{\partial{\hat{X}_{i,j}}}{\partial{\hat{\sigma}_{j}}}}\\&=-\sum_{i=1}^N{\frac{\partial{L}}{\partial{\hat{X}_{i,j}}}\frac{X_{i,j}-\mu_j}{\left(\hat{\sigma_j}\right)^2}}\\&= -\frac{1}{\sigma_j}\sum_{k=1}^N{\frac{\partial{L}}{\partial{\hat{X}_{k,j}}}\hat{X}_{k,j}} \end{aligned}\tag{4.29}$
$\begin{aligned}\frac{\partial{L}}{\partial{\mu_j}}&=\frac{\partial{L}}{\partial{\hat{\sigma}_j}}\frac{\partial{\hat{\sigma}_j}}{\partial{\mu_j}}+\sum_{i=1}^N{\frac{\partial{L}}{\partial{\hat{X}_{i,j}}}\frac{\partial{\hat{X}_{i,j}}}{\partial{\mu_j}}}\\&=\frac{\partial{L}}{\partial{\hat{\sigma}_j}}\frac{\frac{1}{N}\sum_{i=1}^{N}{-2\left(X_{i,j}-\mu_j\right)}}{2\sqrt{\frac{1}{N}\sum_{i=1}^{N}{\left(X_{i,j}-\mu_j\right)^2}}}+\sum_{i=1}^{N}{\frac{\partial{L}}{\partial{\hat{X}_{i,j}}}\frac{\partial{\hat{X}_{i,j}}}{\partial{\mu_j}}}\\&=\frac{\partial{L}}{\partial{\hat{\sigma}_j}}\frac{\frac{1}{N}\sum_{i=1}^N{\left(\mu_j-X_{i,j}\right)}}{\sqrt{\frac{1}{N}\sum_{i=1}^N{\left(X_{i,j}-\mu_j\right)^2}}}+\sum_{i=1}^N{\frac{\partial{L}}{\partial{\hat{X}_{i,j}}}\frac{\partial{\hat{X}_{i,j}}}{\partial{\mu_j}}}\\&=\frac{\partial{L}}{\partial{\hat{\sigma}_j}}\frac{0}{\sqrt{\frac{1}{N}\sum_{i=1}^N{\left(X_{i,j}-\mu_j\right)^2}}}+\sum_{i=1}^N{\frac{\partial{L}}{\partial{\hat{X}_{i,j}}}\frac{\partial{\hat{X}_{i,j}}}{\partial{\mu_j}}}\\&=\sum_{i=1}^N{\frac{\partial{L}}{\partial{\hat{X}_{i,j}}}\frac{\partial{\hat{X}_{i,j}}}{\partial{\mu_j}}}\\&=\sum_{i=1}^N{\frac{\partial{L}}{\partial{\hat{X}_{i,j}}}}\left(-\frac{1}{\hat{\sigma}_j}\right)\\&= \sum_{k=1}^N{\frac{\partial{L}}{\partial{\hat{X}_{k,j}}}}\left(-\frac{1}{\hat{\sigma}_j}\right) \end{aligned} \tag{4.30}$

$\begin{aligned}\frac{\partial{L}}{\partial{X_{i,j}}}&=\frac{\partial{L}}{\partial{\hat{X}_{i,j}}}\frac{\partial{\hat{X}_{i,j}}}{\partial{X_{i,j}}}+\frac{\partial{L}}{\partial{\hat{\sigma_j}}}\frac{\partial{\hat{\sigma_j}}}{\partial{X_{i,j}}}+\frac{\partial{L}}{\partial{\mu_j}}\frac{\partial{\mu_j}}{\partial{X_{i,j}}}\\&= \frac{\partial{L}}{\partial{\hat{X}_{i,j}}}\frac{1}{\hat{\sigma}_j}+\frac{\partial{L}}{\partial{\hat{\sigma_j}}}\frac{\frac{2}{N}\left(X_{i,j}-\mu_j\right)}{2\sqrt{\frac{1}{N}\sum_{i=1}^N{\left(X_{i,j}-\mu_j\right)^2}}}+\frac{\partial{L}}{\partial{\mu_j}}\frac{1}{N}\\&= \frac{\partial{L}}{\partial{\hat{X}_{i,j}}}\frac{1}{\hat{\sigma}_j}+\frac{\partial{L}}{\partial{\hat{\sigma_j}}}\frac{\frac{2}{N}\left(X_{i,j}-\mu_j\right)}{2\hat{\sigma}_j}+\frac{\partial{L}}{\partial{\mu_j}}\frac{1}{N}\\&= \frac{\partial{L}}{\partial{\hat{X}_{i,j}}}\frac{1}{\hat{\sigma}_j}+\frac{\partial{L}}{\partial{\hat{\sigma_j}}}\frac{1}{N}\hat{X}_{i,j}+\frac{\partial{L}}{\partial{\mu_j}}\frac{1}{N}\\&= \frac{\partial{L}}{\partial{\hat{X}_{i,j}}}\frac{1}{\hat{\sigma}_j}-\left(\frac{1}{\hat{\sigma}_j}\sum_{k=1}^N{\frac{\partial{L}}{\partial{\hat{X}_{k,j}}}\hat{X}_{k,j}}\right)\frac{1}{N}\hat{X}_{i,j}-\sum_{k=1}^N{\frac{\partial{L}}{\partial{\hat{X}_{k,j}}}}\left(\frac{1}{\hat{\sigma}_j}\right)\frac{1}{N}\\&= \frac{1}{N}\frac{1}{\hat{\sigma}_j}\left(N\frac{\partial{L}}{\partial{\hat{X}_{i,j}}}-\hat{X}_{i,j}\sum_{k=1}^N{\frac{\partial{L}}{\partial{\hat{X}_{k,j}}}\hat{X}_{k,j}}-\sum_{k=1}^N{\frac{\partial{L}}{\partial{\hat{X}_{k,j}}}}\right)\\&= \frac{\gamma_j}{N\hat{\sigma}_j}\left(N\frac{\partial{L}}{\partial{Y_{i,j}}}-\hat{X}_{i,j}\sum_{k=1}^N{\frac{\partial{L}}{\partial{Y_{k,j}}}\hat{X}_{k,j}}-\sum_{k=1}^N{\frac{\partial{L}}{\partial{Y_{k,j}}}}\right) \end{aligned}\tag{4.31}$

pgsld2333

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
4. 前向/反向传播——Batch Normalization

参考资料cs231n Course Materials: BackpropDerivatives, Backpropagation, and Vectorizationcs231n Lecture 4:Neural Networks and Backpropagationcs231n Assignment 2笔记: Batch Normalization及其反向传播4. Batch Normalization前向传播""" Forward pass for batch normaliza
复制链接

扫一扫