[cv231n] Backpropagation for a Linear Layer-CSDN博客

本文链接：https://blog.csdn.net/weixin_37993251/article/details/87990238

Backpropagation for a Linear Layer 是李飞飞大牛学生Justin Johnson（注意断句），点击可以看他的个人主页发表的论文涉及了多个领域，博士期间在CVPR/ICCV/ECCV顶会上发表多达13篇论文。本文是他为cs231n课程撰写关于Backpropagation的notes，也是我迄今为止见过最简洁，数学推理比较完备的一篇notes。

在本篇笔记中主要是在线性层中推导反向传播的公式，使用Mini-batch。

在前向反馈中，线性层有一个大小是 $N\times D$ 的输入，以及一个大小是 $N\times M$ 的矩阵。

通过两个输入的矩阵内积计算出大小是 $N\times M$ 的输出 Y=XW 。

为了让这个例子更具体，我们令 N = 2, D = 2, M = 3. 现在我们以这个例子可以写出前向传播的输入：

$X=\begin{pmatrix} x_{1,1}& x_{1,2} \\ x_{2,1} & x_{2,2} \end{pmatrix}\ \ \ \ \ \ \ W = \begin{pmatrix} w_{1,1}& w_{1,2} &w_{1,3}\\ w_{2,1} & w_{2,2} &w_{2,3} \end{pmatrix}$

$Y=XW=\begin{pmatrix} x_{1,1}w_{1,1}+x_{1,2}w_{2,1} & x_{1,1}w_{1,2}+x_{1,2}w_{2,2} & x_{1,1}w_{1,3}+x_{1,2}w_{2,3}\\ x_{2,1}w_{1,1}+x_{2,2}w_{2,1} & x_{2,1}w_{1,2}+x_{2,2}w_{2,2}& x_{2,1}w_{1,3}+x_{2,2}w_{2,3} \end{pmatrix}$

在前向传播后，我们假设输入会在网络的其他部分被使用，最后被用来计算损失。

在反向传播中，我们假设它的导数（实际上是偏导） $\frac{\partial L}{\partial Y}$ 已经被计算出来。比如说如果线性层是线性分类器的一部分，那么矩阵给出了分类的打分；这些分数被喂到了损失函数中（例如SVM中的softmax），用来基于打分scores计算损失和导数 $\frac{\partial L}{\partial Y}$ 。

当是矩阵的一个标量，大小为 $N\times M$ 。梯度 $\frac{\partial L}{\partial Y}$ 会使一个矩阵并且和矩阵的大小一样都是 $N\times M$ 。并且梯度 $\frac{\partial L}{\partial Y}$ 的每一个元素都给出了损失基于矩阵的每一个元素的导数 derivative ：

$\small \frac{\partial L}{\partial Y}=\begin{pmatrix} \frac{\partial L}{\partial y_{1,1}} &\frac{\partial L}{\partial y_{1,2}} &\frac{\partial L}{\partial y_{1,3}} \\ \frac{\partial L}{\partial y_{2,1}} & \frac{\partial L}{\partial y_{2,2}} & \frac{\partial L}{\partial y_{2,3}} \end{pmatrix}$

在反向传播中，我们的目标是使用partial $\frac{\partial L}{\partial Y}$ 来计算 $\frac{\partial L}{\partial X}$ 和 $\frac{\partial L}{\partial W}$ 。并且，当损失是标量时， $\frac{\partial L}{\partial X}$ 大小必须是 $X (N \times D)$ ， $\frac{\partial L}{\partial W}$ 大小必须是 $W (D \times M)$ 。

通过链式法则 $chain\ rule$ ，我们有（Goal）：

$\frac{\partial L}{\partial X}=\frac{\partial L}{\partial Y}\frac{\partial Y}{\partial X}\ \ \ \ \ \ \ \ \frac{\partial L}{\partial W}=\frac{\partial L}{\partial Y}\frac{\partial Y}{\partial W}$

上式中 $\frac{\partial Y}{\partial X}$ 和 $\frac{\partial Y}{\partial W}$ 称为雅可比矩阵 $Jacobian\ matrices$ ，包含矩阵的每一个元素基于输入和每一个元素的偏微分 $partial\ derivative$ 。

然而我们不想单独对 $Jacobian\ matrices$ $\frac{\partial Y}{\partial X}$ 和 $\frac{\partial Y}{\partial W}$ 单独计算，因为我们知道他们会非常大。在经典的神经网络中，我们大概率有 $N = 64 ,\ M = D = 4096$ ，然后我们的 $\frac{\partial Y}{\partial X}$ 包含了 $64\cdot 4096\cdot 64\cdot ·4096$ 个标量值。（这足够有680万个数，使用32位的浮点数，这个 $Jacobian\ matrices$ 会占据256G的存储空间）。因此需要额外单独存储 $Jacobian\ matrices$ 矩阵。

但是我们对于大多数常见的神经网络层，我们的导数计算 $\frac{\partial Y}{\partial X}\frac{\partial L}{\partial Y}$ 时不需要单独计算 $Jacobian\ matrices$ $\frac{\partial Y}{\partial X}$ 。甚至我们连 $Jacobian\ matrices$ $\frac{\partial Y}{\partial X}$ 也不需要单独计算；在许多场景中，我们只需要算出小样例的数据，然后在内部进行推导。

让我们看看这个如何对我们的例子来计算。

设置 N = 2, D = 2, M = 3 ，首先我们固定 $\frac{\partial L}{\partial X}$ ，然后我们知道 $\frac{\partial L}{\partial X}$ 和大小相同。

对上式中每一项，首先我们计算 $\frac{\partial L}{\partial x_{1,1}}$ ，通过链式法则，我们知道：

上式我们可以知道和 $x_{1,1}$ 都是标量，所以 $\frac{\partial L}{\partial x_{1,1}}$ 也是一个标量。如果我们看见不是一个矩阵，而是由多个标量组成的集合，我们可以使用链式法则来单独计算标量导数 $\frac{\partial L}{\partial x_{1,1}}$ 。

为了避免求和，更方便来收集所有的 $\frac{\partial L}{\partial y_{i,j}}$ 变成一个单独的矩阵 $\frac{\partial L}{\partial Y}$ ，这里的是一个标量，是一个矩阵， $\frac{\partial L}{\partial Y}$ 的大小也是和一样的 $(N\times M)$ ， $\frac{\partial L}{\partial Y}$ 给出了基于的每一个元素的导数。我们再简单的收集所有的 $\frac{\partial y_{i,j}}{\partial x_{1,1}}$ 变成 $\frac{\partial Y}{\partial x_{1,1}}$ ；因为是一个矩阵 $x_{1,1}$ 是一个标量， $\frac{\partial Y}{\partial x_{1,1}}$ 大小也是和一样的 $(N\times M)$ 。然后将 $\frac{\partial L}{\partial Y}$ 和 $\frac{\partial Y}{\partial x_{1,1}}$ 做点乘。