深度学习之卷积神经网络（6）梯度传播

最新推荐文章于 2022-11-15 14:32:17 发布

炎武丶航

最新推荐文章于 2022-11-15 14:32:17 发布

阅读量1k

点赞数 1

分类专栏：深度学习 TensorFlow2 文章标签：神经网络深度学习机器学习

本文链接：https://blog.csdn.net/weixin_43360025/article/details/120584265

版权

深度学习同时被 2 个专栏收录

125 篇文章 52 订阅

订阅专栏

TensorFlow2

69 篇文章 12 订阅

订阅专栏

深度学习之卷积神经网络（6）梯度传播

在完成手写数字图片识别实战后，我们对卷积神经网络的使用有了初步的了解。现在我们来解决一个关键问题，卷积层通过移动感受野的方式实现离散卷积操作，那么它的梯度传播是怎样进行的呢？

考虑一简单的情形，输入 $3 \times 3$ 的单通道矩阵，与一个 $2 \times 2$ 的卷积核，进行卷积运算，输出结果打平后直接与虚构的标注计算误差，如下图所示。我们来讨论这种情况下的梯度更新方式。

在这里插入图片描述

卷积层梯度传播举例

首先推导出张量 $\boldsymbol O$ 的表达形式:
$o_{00}=x_{00} w_{00}+x_{01} w_{01}+x_{10} w_{10}+x_{11} w_{11}+b\\ o_{01}=x_{01} w_{00}+x_{02} w_{01}+x_{11} w_{10}+x_{12} w_{11}+b\\ o_{10}=x_{10} w_{00}+x_{11} w_{01}+x_{20} w_{10}+x_{21} w_{11}+b\\ o_{11}=x_{11} w_{00}+x_{12} w_{01}+x_{21} w_{10}+x_{22} w_{11}+b$

以 $w_{00}$ 的梯度计算为例，通过链式法则分解:
$\frac{∂\mathcal{L}}{∂w_{00}}=\sum_{i\in\{00,01,10,11\}}{\frac{∂\mathcal{L}}{∂o_i}\frac{∂o_i}{∂w_{00}}}$

其中 $\frac{∂\mathcal{L}}{∂o_i}$ 可直接由误差函数推导出来，我们直接来考虑 $\frac{∂o_i}{∂w_{00}}$ ，例如:
$\begin{aligned}\frac{∂o_{00}}{∂w_{00}}&=\frac{∂(x_{00} w_{00}+x_{01} w_{01}+x_{10} w_{10}+x_{11} w_{11}+b}{w_{00}} \\&=x_{00}\end{aligned}$
同理:
$\begin{aligned}\frac{∂o_{01}}{∂w_{00}}&=\frac{∂(x_{01} w_{00}+x_{02} w_{01}+x_{11} w_{10}+x_{12} w_{11}+b}{w_{00}} \\&=x_{01}\end{aligned}$
$\begin{aligned}\frac{∂o_{10}}{∂w_{00}}&=\frac{∂(x_{10} w_{00}+x_{11} w_{01}+x_{10} w_{10}+x_{21} w_{11}+b}{w_{00}} \\&=x_{10}\end{aligned}$
$\begin{aligned}\frac{∂o_{11}}{∂w_{00}}&=\frac{∂(x_{11} w_{00}+x_{12} w_{01}+x_{21} w_{10}+x_{22} w_{11}+b}{w_{00}} \\&=x_{11}\end{aligned}$

可以观察到，通过循环移动感受野的方式并没有改变网络层的可导性，同时梯度的推导也并不复杂，知识当网络层数增大以后，人工梯度推导将变得十分繁琐。不过不需要担心，深度学习框架可以帮我们自动完成所有参数的梯度计算与更新，我们只需要设计好网络结构即可。

炎武丶航

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
深度学习之卷积神经网络（6）梯度传播

深度学习之卷积神经网络（6）梯度传播在完成手写数字图片识别实战后，我们对卷积神经网络的使用有了初步的了解。现在我们来解决一个关键问题，卷积层通过移动感受野的方式实现离散卷积操作，那么它的梯度传播是怎样进行的呢？考虑一简单的情形，输入3×33×33×3的单通道矩阵，与一个2×22×22×2的卷积核，进行卷积运算，输出结果打平后直接与虚构的标注计算误差，如下图所示。我们来讨论这种情况下的梯度更新方式。卷积层梯度传播举例首先推导出张量O\boldsymbol OO的表达形式:o00=x00w00
复制链接

扫一扫