四张图彻底搞懂CNN反向传播算法

最新推荐文章于 2024-04-25 23:31:27 发布

BieberChen

最新推荐文章于 2024-04-25 23:31:27 发布

阅读量1.2k

点赞数 2

分类专栏：深度学习卷积神经网络文章标签：卷积神经网络 max pooling average pooling cnn 反向传播算法

本文链接：https://blog.csdn.net/BieberChen/article/details/100627042

版权

深度学习同时被 2 个专栏收录

6 篇文章 1 订阅

订阅专栏

卷积神经网络

1 篇文章 0 订阅

订阅专栏

阅读本文之前，请首先阅读之前讲述的全连接层的反向传播算法详细推导过程：全连接反向传播算法。已经了解反向传播算法请自动忽略。

1. 卷积层的反向传播

直接上图：

假设输入为一张单通道图像 $x$ ，卷积核大小为 $2\times 2$ ，输出为 $y$ 。为了加速计算，首先将 $x$ 按卷积核滑动顺序依次展开，如上图所示。其中， $\hat{x}$ 中的红色框代表 $x$ 中的红色框展开后的结果，将 $x$ 依次按照此方式展开，可得 $\hat{x}$ 。同理可得 $\hat{w}$ ，然后通过矩阵相乘可得输出 $\hat{y}$ （ $\hat{y}$ 与 $y$ 等价）。此时，已经将CNN转化为FC，与反向传播算法完全一致，这里不再做详细介绍。

当有 $N$ 个样本，即batch=N时，前向与反向传播方式如下图所示：
在这里插入图片描述
其中，输入图像batch=3,使用2个 $2\times 2\times 3$ 的卷积核，输出两张图像，如图所示。红色框、黄色框代表的是卷积核以及使用该卷积核得到的输出图像 $y$ 。当输入图像为一个batch时， $x 、 w$ 的转化方式如上图，首先将输入图像与卷积核分别按单通道图像展开，然后将展开后的矩阵在行方向级联。此时，已经将CNN转化为了FC，与反向传播算法完全一致，这里不再做详细介绍。

2. Average pooling的反向传播

在这里插入图片描述
$\frac{\partial J}{\partial w}$ 不用求，因为 $w$ 为常数。 $\frac{\partial J}{\partial x_{ij}}=\Sigma \frac{\partial J}{\partial \hat{x}_{ij}}$

3. Max-pooling的反向传播

在这里插入图片描述
遍历 $\hat{x}$ 的每一行，找出此行最大值的索引 $(i, j)$ ，然后将 $\frac{\partial J}{\partial \hat{x}}$ 中索引为 $(i, j)$ 的值设为 $\frac{\partial J}{\partial \hat{y}}$ 对应行的值，将此行其余列的值设为0，如上图所示红框所示。假设 $\hat{x}$ 中(1,1)处的值是第一行中最大的值，则将 $\frac{\partial J}{\partial y_{11}}$ 赋值给 $\frac{\partial J}{\partial \hat{x}}$ 中索引为 $(1, 1)$ 的位置。最后计算: $\frac{\partial J}{\partial x_{ij}}=\Sigma \frac{\partial J}{\partial \hat{x}_{ij}}$

BieberChen

关注

2
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
四张图彻底搞懂CNN反向传播算法

阅读本文之前，请首先阅读之前讲述的全连接层的反向传播算法详细推导过程：全连接反向传播算法。已经了解反向传播算法请自动忽略。1. 卷积层的反向传播直接上图：假设输入为一张单通道图像xxx，卷积核大小为2×22\times 22×2，输出为yyy。为了加速计算，首先将xxx按卷积核滑动顺序依次展开，如上图所示。其中，x^\hat{x}x^中的红色框代表xxx中的红色框展开后的结果，将xxx...
复制链接

扫一扫

专栏目录