5. 前向/反向传播——Layer Normalization

pgsld2333

已于 2022-01-19 11:04:05 修改

阅读量1k

点赞数 1

文章标签：深度学习

于 2022-01-19 11:02:35 首次发布

本文链接：https://blog.csdn.net/pgsld2333/article/details/122576365

版权

参考资料

cs231n Course Materials: Backprop
Derivatives, Backpropagation, and Vectorization
cs231n Lecture 4:Neural Networks and Backpropagation
cs231n Assignment 2
笔记: Batch Normalization及其反向传播

5. Layer Normalization

其实Layer Normalization基本就是把Batch Normalization对输入X的第一个维度N做的事情作用在了第二个维度D上(不过可学习参数 $\gamma$ ， $\beta$ 仍然是D维)，所以实现的话其实只需要把输入转置一下，然后再适当的位置转置回去就差不多了(当然，因为是对第二维D求均值和方差，测试阶段也可以单独算，就不需要再使用滑动平均了)。

不过，这里还是推导一下。

前向传播

"""Forward pass for layer normalization.

    Input:
    - X: Data of shape (N, D)
    - gamma: Scale parameter of shape (D,)
    - beta: Shift paremeter of shape (D,)
    - ln_param: Dictionary with the following keys:
        - eps: Constant for numeric stability

    Returns a tuple of:
    - Y: of shape (N, D)
    - cache: A tuple of values needed in the backward pass
"""

$\mu_{i}=\frac{1}{D}\sum_{j=1}^{D}{X_{i,j}}\tag{5.1}$
$\sigma_i=\sqrt{\frac{1}{D}\sum_{j=1}^{D}{\left(X_{i,j}-\mu_i\right)^2}+\epsilon}\tag{5.2}$
$\hat{X}_{i,j}=\frac{X_{i,j}-\mu_i}{\sigma_{i}}\tag{5.3}$
$Y_{i,j}=\gamma_j\hat{X}_{i,j}+\beta_j\tag{5.4}$

反向传播

在这里插入图片描述

由式(5.4)得
$\frac{\partial{L}}{\partial{\beta_j}}=\sum_i{\frac{\partial{L}}{\partial{Y_{i,j}}}}\frac{\partial{Y_{i,j}}}{\partial{\beta_j}}=\sum_i{\frac{\partial{L}}{\partial{Y_{i,j}}}}\tag{5.5}$
$\frac{\partial{L}}{\partial{\gamma_j}}=\sum_i{\frac{\partial{L}}{\partial{Y_{i,j}}}}\frac{\partial{Y_{i,j}}}{\partial{\gamma_j}}=\sum_i{\frac{\partial{L}}{\partial{Y_{i,j}}}\hat{X}_{i,j}}\tag{5.6}$
$\frac{\partial{L}}{\partial{\hat{X}_{i,j}}}=\frac{\partial{L}}{\partial{Y_{i,j}}}\frac{\partial{Y_{i,j}}}{\partial{\hat{X}_{i,j}}}=\frac{\partial{L}}{\partial{Y_{i,j}}}\gamma_j\tag{5.7}$

由式(5.3)可得
$\begin{aligned}\frac{\partial{L}}{\partial{\hat{\sigma}_{i}}}&=\sum_{j=1}^D{\frac{\partial{L}}{\partial{\hat{X}_{i,j}}}\frac{\partial{\hat{X}_{i,j}}}{\partial{\hat{\sigma}_{i}}}}\\&=-\sum_{j=1}^D{\frac{\partial{L}}{\partial{\hat{X}_{i,j}}}\frac{X_{i,j}-\mu_i}{\left(\hat{\sigma_i}\right)^2}}\\&= -\frac{1}{\sigma_i}\sum_{k=1}^D{\frac{\partial{L}}{\partial{\hat{X}_{i,k}}}\hat{X}_{i,k}} \end{aligned}\tag{5.8}$
$\begin{aligned}\frac{\partial{L}}{\partial{\mu_i}}&=\frac{\partial{L}}{\partial{\hat{\sigma}_i}}\frac{\partial{\hat{\sigma}_i}}{\partial{\mu_i}}+\sum_{j=1}^D{\frac{\partial{L}}{\partial{\hat{X}_{i,j}}}\frac{\partial{\hat{X}_{i,j}}}{\partial{\mu_i}}}\\&=\frac{\partial{L}}{\partial{\hat{\sigma}_i}}\frac{\frac{1}{D}\sum_{j=1}^{D}{-2\left(X_{i,j}-\mu_i\right)}}{2\sqrt{\frac{1}{D}\sum_{j=1}^{D}{\left(X_{i,j}-\mu_i\right)^2}}}+\sum_{j=1}^{D}{\frac{\partial{L}}{\partial{\hat{X}_{i,j}}}\frac{\partial{\hat{X}_{i,j}}}{\partial{\mu_i}}}\\&=\frac{\partial{L}}{\partial{\hat{\sigma}_i}}\frac{\frac{1}{D}\sum_{j=1}^D{\left(\mu_i-X_{i,j}\right)}}{\sqrt{\frac{1}{D}\sum_{j=1}^D{\left(X_{i,j}-\mu_i\right)^2}}}+\sum_{j=1}^D{\frac{\partial{L}}{\partial{\hat{X}_{i,j}}}\frac{\partial{\hat{X}_{i,j}}}{\partial{\mu_i}}}\\&=\frac{\partial{L}}{\partial{\hat{\sigma}_i}}\frac{0}{\sqrt{\frac{1}{D}\sum_{j=1}^D{\left(X_{i,j}-\mu_i\right)^2}}}+\sum_{j=1}^D{\frac{\partial{L}}{\partial{\hat{X}_{i,j}}}\frac{\partial{\hat{X}_{i,j}}}{\partial{\mu_i}}}\\&=\sum_{j=1}^D{\frac{\partial{L}}{\partial{\hat{X}_{i,j}}}\frac{\partial{\hat{X}_{i,j}}}{\partial{\mu_i}}}\\&=\sum_{j=1}^D{\frac{\partial{L}}{\partial{\hat{X}_{i,j}}}}\left(-\frac{1}{\hat{\sigma}_i}\right)\\&= \sum_{k=1}^D{\frac{\partial{L}}{\partial{\hat{X}_{i,k}}}}\left(-\frac{1}{\hat{\sigma}_i}\right) \end{aligned} \tag{5.9}$

$\begin{aligned}\frac{\partial{L}}{\partial{X_{i,j}}}&=\frac{\partial{L}}{\partial{\hat{X}_{i,j}}}\frac{\partial{\hat{X}_{i,j}}}{\partial{X_{i,j}}}+\frac{\partial{L}}{\partial{\hat{\sigma_i}}}\frac{\partial{\hat{\sigma_i}}}{\partial{X_{i,j}}}+\frac{\partial{L}}{\partial{\mu_i}}\frac{\partial{\mu_i}}{\partial{X_{i,j}}}\\&= \frac{\partial{L}}{\partial{\hat{X}_{i,j}}}\frac{1}{\hat{\sigma}_i}+\frac{\partial{L}}{\partial{\hat{\sigma_i}}}\frac{\frac{2}{D}\left(X_{i,j}-\mu_i\right)}{2\sqrt{\frac{1}{D}\sum_{j=1}^D{\left(X_{i,j}-\mu_i\right)^2}}}+\frac{\partial{L}}{\partial{\mu_i}}\frac{1}{D}\\&= \frac{\partial{L}}{\partial{\hat{X}_{i,j}}}\frac{1}{\hat{\sigma}_i}+\frac{\partial{L}}{\partial{\hat{\sigma_i}}}\frac{\frac{2}{D}\left(X_{i,j}-\mu_i\right)}{2\hat{\sigma}_i}+\frac{\partial{L}}{\partial{\mu_i}}\frac{1}{D}\\&= \frac{\partial{L}}{\partial{\hat{X}_{i,j}}}\frac{1}{\hat{\sigma}_i}+\frac{\partial{L}}{\partial{\hat{\sigma_j}}}\frac{1}{D}\hat{X}_{i,j}+\frac{\partial{L}}{\partial{\mu_i}}\frac{1}{D}\\&= \frac{\partial{L}}{\partial{\hat{X}_{i,j}}}\frac{1}{\hat{\sigma}_i}-\left(\frac{1}{\hat{\sigma}_i}\sum_{k=1}^D{\frac{\partial{L}}{\partial{\hat{X}_{i,k}}}\hat{X}_{i,k}}\right)\frac{1}{D}\hat{X}_{i,j}-\sum_{k=1}^D{\frac{\partial{L}}{\partial{\hat{X}_{i,k}}}}\left(\frac{1}{\hat{\sigma}_i}\right)\frac{1}{D}\\&= \frac{1}{D}\frac{1}{\hat{\sigma}_i}\left(D\frac{\partial{L}}{\partial{\hat{X}_{i,j}}}-\hat{X}_{i,j}\sum_{k=1}^D{\frac{\partial{L}}{\partial{\hat{X}_{i,k}}}\hat{X}_{i,k}}-\sum_{k=1}^D{\frac{\partial{L}}{\partial{\hat{X}_{i,k}}}}\right) \end{aligned}\tag{5.10}$

pgsld2333

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
5. 前向/反向传播——Layer Normalization

参考资料cs231n Course Materials: BackpropDerivatives, Backpropagation, and Vectorizationcs231n Lecture 4:Neural Networks and Backpropagationcs231n Assignment 2笔记: Batch Normalization及其反向传播5. Layer Normalization其实Layer Normalization基本就是把Batch Normalizat
复制链接

扫一扫