步长大于1时卷积神经网的反向传播

最新推荐文章于 2024-04-22 22:47:29 发布

jetFlow

最新推荐文章于 2024-04-22 22:47:29 发布

阅读量1.5k

点赞数 2

分类专栏：深度学习机器学习文章标签：卷积神经网络反向传播深度学习公式推导

本文链接：https://blog.csdn.net/jetFlow/article/details/80140628

版权

本文详细探讨了步长为2以上的卷积神经网络的反向传播过程，包括dwdw、dZdZ和dbdb的求法，特别指出在卷积核不翻转的情况下，反向传播中坐标的变化和计算特点。

摘要由CSDN通过智能技术生成

关于卷积神经网络的正向和反向传播网上已经有了大量的技术指导，但是绝大部分都止步于卷积核步长为1，且通道数为1的简单的示意性的推导，当步长为2时，大多数的教程都语焉不详，或直接跳过。我在这里就对步长为2以上的卷积操作进行详细讨论。本文假设读者已经基本掌握神经网络的链式求导法则，所以不会再讲这些细节。另外，本文只考虑卷积操作的正向和反向传播，如果想对池化层的相应过程做了解可以直接移步参考文献。

申明：本文所涉及的卷积不对卷积核做180°翻转操作。

1. 一些记号

我们以 $l$ 代表层数， $H^{l}$ ， $W^{l}$ 代表第 $l$ 层图像的长和宽， $n^l$ 代表第 $l$ 层的通道数。 $w^l$ 代表第 $l$ 层的卷积核，它的形状为 $（k_1， k_2， n^l)$ ，而 $b^l$ 是偏置项，形状为 $（1， 1，n^l)$ 。步长用 $s^l$ 表示，由于我们只看其中一层的传播的，所以下文忽略这个步长的上标 $l$ ，用 $s$ 表示。 $Z^l$ 是激活前的线性组合， $A^l$ 代表激活后的输出，有 $A^l = g(Z^l)$ ，而 $g(·)$ 则是激活函数。其中， $Z^l$ 和 $A^l$ 是相同形状的三维张量，形状为 $(H^l, W^l, n^l)$ 。

另外总的代价函数为 $J$ ， $\frac {\partial J}{\partial w}$ 代表代价函数对卷积核参数的梯度，我们简写用 $dw$ 表示，同样还有误差敏感项 $\frac {\partial J}{\partial Z}$ ，简写作 $dZ$ 。

另外，关于坐标的记号：
上文中所述的 $A^l，Z^l， w^l$ 都是三维矩阵（张量），前两个维度表示平面2D坐标（第一个维度指示行，第二个维度指示列），最后一个维度代表通道。在具体表示某一个元素时，我会用脚标的形式给出，例如 $Z^l_{i,j,k}（i=0,1,…,H^l-1;j=0,1,…,W^l-1;k=0,1,…,n^l-1）$ 代表第k号通道下第i行第j列的元素（注意i，j，k都是从0开始计数的）。而有时候，我们会想表示某个通道的全部元素，例如 $w^l_{·,·,k'}$ 代表第 $l$ 层第 $k'$ 个卷积核的全部元素，这时它是一个二维的矩阵（相当于对原来的三维张量 $w^l$ 做了切片操作）。