机器学习基础---神经网络---卷积神经网络CNN

最新推荐文章于 2023-10-26 18:57:59 发布

Guanxiong He

最新推荐文章于 2023-10-26 18:57:59 发布

阅读量2.3k

点赞数

分类专栏：机器学习基础

本文链接：https://blog.csdn.net/jkgghvfuj/article/details/121334728

版权

卷积神经网络反向传播卷积池化梯度计算

关键词由CSDN通过智能技术生成

机器学习基础专栏收录该内容

20 篇文章 4 订阅

订阅专栏

卷积神经网络CNN

正向传播

在这里插入图片描述

输入：经过预处理的三维矩阵/多通道图像（行*列*通道数）
一般会以卷积操作，池化操作交替对输入图像进行处理（特征提取）
将最终得到feature map扁平化处理，然后加上全连接网络完成下游任务

反向传播

参考先前全连接网络BP方法中的定义，定义第 $l$ 层未激活输出值 $Z^l$ ，输出到 $Z^l$ 的偏导为 $\delta^l$
在全连接网络的BP方法中，主要通过 $\delta^l$ 之间的递推关系及 $\delta^l$ 到变换矩阵 $W$ 及偏置 $b$ 的偏导完成对参数的更新
在卷积网络的BP方法中类似，先求 $\delta^l$ 之间的递推关系：
- 当第 $l$ 层为池化层时：
  - 对池化操作来说，经过一次降采样之后存在数据损失，因此只能尽可能还原，该过程称作upsample，大体思路是
    - 均值池化平摊误差
    - 最大池化在正向传播时记录下最大值位置，反向时误差全部传播到相应记录位置
  - 操作步骤：
    - 先将 $\delta_k^l$ 所有子矩阵大小还原到池化前大小
    - 再按照上述策略对还原矩阵进行填充，即得到 $\frac{\partial J(W,b)}{\partial{\alpha_k^{l-1}}}$
  - 有：
    $\delta_k^{l-1}=\frac{\partial J(W,b)}{\partial{Z_k^{l-1}}}=(\frac{\partial{\alpha_k^{l-1}}}{\partial{Z_k^{l-1}}})^T\frac{\partial J(W,b)}{\partial{\alpha_k^{l-1}}}=upsample(\delta^l_k)⊙\sigma'(z_k^{l-1})$
    即：
    $\delta_k^{l-1}=upsample(\delta^l_k)⊙\sigma'(z_k^{l-1})$
- 第 $l$ 层为卷积层时：
  $z^l=\alpha^{l-1}*W^l+b^l=\sigma(Z^{l-1})*W^l+b^l$
  - 卷积核求导（二维）：
    
    下图中绿色2*2矩阵为卷积后结果的 $\delta$ 误差，彩色2*2矩阵是卷积核，各子图是对填充后4*4原图步长为1的卷积过程
    
    传播到原图第i行j列的误差是卷积过程中对相应位置产生影响的 $\delta$ 误差与相应卷积核权重乘积的累加
    
    有：原图的delta误差，等于卷积结果的delta误差经过零填充后，与卷积核旋转180度后的卷积
    
    即：
    $\delta^{l-1}=(\frac{\partial{z^l}}{\partial{z^{l-1}}})\delta^l=\delta^l*rot(W^l)⊙\sigma'(z^{l-1})$
    举例说明：
    $对:\alpha^{l-1}W^l=Z^l\\ \left[\begin{aligned} \begin{matrix} a_{11} & a_{12} & a_{13}\\ a_{21} & a_{22} & a_{23}\\ a_{31} & a_{32} & a_{33}\\ \end{matrix} \end{aligned}\right]* \left[\begin{aligned} \begin{matrix} w_{11}&w_{12}\\ w_{21}&w_{22} \end{matrix} \end{aligned}\right]= \left[\begin{aligned} \begin{matrix} z_{11}&z_{12}\\ z_{21}&z_{22} \end{matrix} \end{aligned}\right]$
    
    $z_{11}=a_{11}w_{11}+a_{12}w_{12}+a_{21}w_{21}+a_{22}w_{22}\\ z_{12}=a_{12}w_{11}+a_{13}w_{12}+a_{22}w_{21}+a_{23}w_{22}\\ z_{21}=a_{21}w_{11}+a_{22}w_{12}+a_{31}w_{21}+a_{32}w_{22}\\ z_{22}=a_{22}w_{11}+a_{23}w_{12}+a_{32}w_{21}+a_{33}w_{22}\\$
    
    $\begin{cases} \nabla_{a_{11}}=\delta_{11}w_{11}\\ \nabla_{a_{12}}=\delta_{11}w_{21}+\delta_{21}w_{11}\\ \nabla_{a_{13}}=\delta_{12}w_{12}\\ \nabla_{a_{21}}=\delta_{11}w_{21}+\delta_{21}w_{11}\\ \nabla_{a_{22}}=\delta_{11}w_{22}+\delta_{12}w_{21}+\delta_{21}w_{12}+\delta_{22}w_{11}\\ \nabla_{a_{23}}=\delta_{12}w_{22}+\delta_{22}w_{12}\\ \nabla_{a_{31}}=\delta_{21}w_{21}\\ \nabla_{a_{32}}=\delta_{21}w_{22}+\delta_{22}w_{21}\\ \nabla_{a_{33}}=\delta_{22}w_{22}\\ \end{cases}$
    
    有：
    $\left[\begin{aligned} \begin{matrix} 0 & 0 & 0 & 0\\ 0 & \delta_{11} & \delta_{12} & 0\\ 0 & \delta_{21} & \delta_{22} & 0\\ 0 & 0 & 0 & 0 \end{matrix} \end{aligned}\right]* \left[\begin{aligned} \begin{matrix} w_{22}&w_{21}\\ w_{12}&w_{11} \end{matrix} \end{aligned}\right]= \left[\begin{aligned} \begin{matrix} \nabla_{a_{11}} & \nabla_{a_{12}} & \nabla_{a_{13}}\\ \nabla_{a_{21}} & \nabla_{a_{22}} & \nabla_{a_{23}}\\ \nabla_{a_{31}} & \nabla_{a_{32}} & \nabla_{a_{33}}\\ \end{matrix} \end{aligned}\right]$
已知卷积层 $\delta^l$ ，求 $W, b$ 的梯度
- 由：
  $Z^l=\alpha^{l-1}*W^l+b^l$
  有：
  $\frac{\partial{J(W,b)}}{\partial{W^l}}=\alpha^{l-1}*\delta^l\\ \frac{\partial{J(W,b)}}{\partial{b^l}}=\sum_{u,v}(\delta^l)_{u,v}$
综上，CNN反向传播过程如下：
- 初始化各隐藏层与输出层的各 $W^l,b^l$ 的值为一个随机值
- $i = 1, 2, . . ., n$
  - $\alpha_1=x_i$
  - $l = 2, 3, . . ., L - 1$
    - 若 $l$ 是全连接层
      $\alpha^{i,l}=\sigma(W^l\alpha^{i,l-1}+b^l)$
    - 若 $l$ 是卷积层
      $\alpha^{i,l}=\sigma(W^l*\alpha^{i,l-1}+b^l)$
    - 若 $l$ 是池化层
      $\alpha^{i,l}=pool(\alpha^{i,l-1})$
  - 对第 $L$ 层（输出层）
    $\alpha^{i,L}=softmax(W^L\alpha^{i,L-1}+b^L)$
  - 通过损失函数计算输出层 $\delta^L$
  - $l = L - 1, . . ., 2$
    - 若 $l$ 是全连接层
      $\delta^{i,l}=(W^{i,l+1})^T\delta^{i,l+1}⊙\sigma'(z_k^{l-1})$
    - 若 $l$ 是卷积层
      $\delta^{i,l}=\delta^l*rot(W^l)⊙\sigma'(z^{l-1})$
    - 若 $l$ 是池化层
      $\delta^{i,l}=upsample(\delta^{i,l+1})⊙\sigma'(z^{i,l})$
  - $l = 2, 3, . . ., L$ ，更新第 $l$ 层参数
    - 若 $l$ 是全连接层
      $W^l=W^{l-1}-\alpha\sum_{i=1}^n\delta^{i,l}{(\alpha^{i,l-1})}^T\\ b^l=b^l-\alpha\sum_{i=1}^n\delta^{i,l}$
    - 若 $l$ 是卷积层
      $W^l=W^l-\alpha\sum_{i=1}^n\alpha^{i,l-1}*\delta^{i,l}\\ b^l=b^l-\alpha\sum_{i=1}^n\sum_{u,v}(\delta^{i,l})_{u,v}$
- 如果所有 $W ， b$ 的变化值都小于停止迭代阈值 $ϵ$ ，则跳出迭代
- 得到优化后的参数，模型确定

参考资料

【1】[卷积神经网络(CNN)反向传播算法推导][https://zhuanlan.zhihu.com/p/61898234]

【2】[卷积神经网络概念与原理][https://blog.csdn.net/yunpiao123456/article/details/52437794]

【3】卷积神经网络(CNN)反向传播算法

Guanxiong He

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习基础---神经网络---卷积神经网络CNN

卷积神经网络CNN相关概念卷积不同于学意义上的卷积，深度学习中的卷积是卷积核在原始图像上遍历，对应元素相乘再求和单核在单通道张量上卷积过程大致如下：卷积神经网络中，数据的格式主要是以张量（多维向量）形式存储，一般格式为行*列*通道数，卷积核格式为核数×行×列×通道数多通道卷积操作是每次取出卷积核中的一个（通道数与张量一致），对应通道的张量和卷积核进行二维卷积，得到各通道结果，再将各通道卷积结果相加得到输出张量的一个通道。每个卷积核处理张量生成一个输出通道，输出张量的通道数等
复制链接

扫一扫