详解卷积神经网络反向传播

最新推荐文章于 2024-07-31 08:30:00 发布

yuchiwang

最新推荐文章于 2024-07-31 08:30:00 发布

阅读量1.4w

点赞数 3

分类专栏：深度学习文章标签： CNN 卷积神经网络反向传播

深度学习专栏收录该内容

40 篇文章 3 订阅

订阅专栏

原文地址：http://jermmy.xyz/2017/12/16/2017-12-16-cnn-back-propagation/

在一般的全联接神经网络中，我们通过反向传播算法计算参数的导数。BP 算法本质上可以认为是链式法则在矩阵求导上的运用。但 CNN 中的卷积操作则不再是全联接的形式，因此 CNN 的 BP 算法需要在原始的算法上稍作修改。这篇文章主要讲一下 BP 算法在卷积层和 pooling 层上的应用。

原始的 BP 算法

首先，用两个例子回顾一下原始的 BP 算法。（不熟悉 BP 可以参考How the backpropagation algorithm works，不介意的话可以看我的读书笔记）

最简单的例子

先看一个最简单的例子（偷个懒，搬个手绘图～囧～）：

上图中，表示第层的输出（就是网络最开始的输入），网络的激活函数假设都是，和表示第层的参数，表示，表示第层的误差，是第层神经元的输入，即，。

接下来要用 BP 算法求参数的导数和。

算出这两个误差项后，就可以直接求出导数了：

和的求法是一样的，这里不在赘述。

次简单的例子

接下来稍微把网络变复杂一点：

符号的标记和上一个例子是一样的。要注意的是，这里的不再是一个数，而变成一个权重矩阵，表示第层的第个神经元到第层的第个神经元的权值，如下图所示：

首先，还是要先求出网络的误差。

由此得到：表示 elementwise 运算。

接着要根据计算前一层的误差。同理，。

这样，我们就得到第 1 层的误差项：然后，根据误差项计算导数：

BP 算法的套路

在 BP 算法中，我们计算的误差项其实就是对的导数，有了该导数后，根据链式法则就可以比较容易地求出和。

CNN 中的 BP 算法

之所以要「啰嗦」地回顾普通的 BP 算法，主要是为了熟悉一下链式法则，因为这一点在理解 CNN 的 BP 算法时尤为重要。

下面就来考虑如何把之前的算法套路用在 CNN 网络中。

CNN 的难点在于卷积层和 pooling 层这两种很特殊的结构，因此下面重点分析这两种结构的 BP 算法如何执行。

卷积层

假设我们要处理如下卷积操作：

这个操作咋一看完全不同于全联接层的操作，这样，想套一下 BP 算法都不知从哪里入手。但是，如果把卷积操作表示成下面的等式，问题就清晰多了（卷积操作一般是要把卷积核旋转 180 度再相乘的，不过，由于 CNN 中的卷积参数本来就是学出来的，所以旋不旋转，关系其实不大，这里默认不旋转）：

更进一步，我们还可以把上面的等式表示成下图：

上图的网络结构中，左边青色的神经元表示到，中间橙色的表示到。需要注意的是，青色和橙色神经元之间的权值连接用了不同的颜色标出，紫色线表示，蓝色线表示，依此类推。这样一来，如果你熟悉 BP 链式法则的套路的话，你可能已经懂了卷积层的 BP 是怎么操作的了。因为卷积层其实就是一种特殊的连接层，它是部分连接的，而且参数也是共享的。

假设上图中，这一层神经元是第层，即，。同时假设其对应的误差项我们已经算出来了。下面，按照 BP 的套路，我们要根据计算、和。

卷积层的误差项

首先计算。假设上图中的是前一层经过某些操作（可能是激活函数，也可能是 pooling 层等，但不管是哪种操作，我们都可以用来表示）后得到的响应，即。那么，根据链式法则：

对照上面的例子，

应该是一个 9 维的向量，所以

也是一个向量，根据之前 BP 的套路，这里需要

操作。

这里的重点是要计算，这也是卷积层区别于全联接层的地方。根据前面展开的卷积操作的等式，这个导数其实比全联接层更容易求。以和为例（简洁起见，下面去掉右上角的层数符号）：

（表示。如果这两个例子看不懂，证明对之前 BP 例子中的（1）式理解不够，请先复习普通的 BP 算法。）

其他的计算，道理相同。

之后，如果你把所有式子都写出来，就会发现，我们可以用一个卷积运算来计算所有：

这样一来，（3）式可以改写为：

（4）式就是 CNN 中误差项的计算方法。注意，跟原始的 BP 不同的是，这里需要将后一层的误差

写成矩阵的形式，并用 0 填充到合适的维度。而且这里不再是跟矩阵

相乘，而是先将

旋转 180 度后，再跟其做卷积运算。

卷积层的导数和

这两项的计算也是类似的。假设已经知道当前层的误差项，参考之前的计算，可以得到：

其他的计算同理。

跟一样，我们可以用矩阵卷积的形式表示：

这样就得到了

的公式：

对于

，我参考了文末的链接，但对其做法仍然不太理解，我觉得在卷积层中，

和一般的全联接层是一样的，仍然可以用下面的式子得到：

理解不一定对，所以这一点上大家还是参考一下其他资料。

pooling 层

跟卷积层一样，我们先把 pooling 层也放回网络连接的形式中：

红色神经元是前一层的响应结果，一般是卷积后再用激活函数处理。绿色的神经元表示 pooling 层。很明显，pooling 主要是起到降维的作用，而且，由于 pooling 时没有参数需要学习，因此，当得到 pooling 层的误差项后，我们只需要计算上一层的误差项即可。要注意的一点是，由于 pooling 一般会降维，因此传回去的误差矩阵要调整维度，即。这样，误差传播的公式原型大概是：