算法推导 | 卷积神经网络(CNN)反向传播

作者丨南柯一梦宁沉沦@知乎 编辑丨极市平台

来源丨https://zhuanlan.zhihu.com/p/61898234

多层感知机反向传播的数学推导,主要是用数学公式来进行表示的,在全连接神经网络中,它们并不复杂,即使是纯数学公式也比较好理解。而卷积神经网络相对比较复杂,在本篇文章中我们将从直观感受和数学公式两方面来介绍CNN反向传播算法的推导。

首先我给大家介绍一下我分析delta误差反向传播过程的简单方法,如果神经网络l+1层某个结点的delta误差要传到l层,我们就去找前向传播时l+1层的这个结点和第l层的哪些结点有关系,权重是多少,那么反向传播时,delta误差就会乘上相同的权重传播回来。

假设第l层有一个结点a,l+1层有一个结点b。两个结点间的连接权重为w。如果前向传播时,结点a对结点b的影响是 。而反向传播时,结点b的delta误差 对结点a的delta误差 的影响是 。它们的系数都为两结点之间的连接权重。

卷积神经网络前向传播过程简要介绍

在理解卷积神经网络的反向传播之前,我们需要对卷积、池化以及卷积神经网络前向传播过程作一个简要的回顾。

卷积运算介绍

在卷积神经网络中,所谓的卷积运算,其实并不是严格的数学意义上的卷积。深度学习中的卷积实际上是信号处理和图像处理中的互相关运算,它们二者之间有细微的差别。深度学习中的卷积(严格来说是互相关)是卷积核在原始图像上遍历,对应元素相乘再求和,得到的新图像在尺寸上会有减小。可以通过下图直观的去理解。假设输入图像的有m行,n列,卷积核的尺寸为filter_size×filter_size,输出图像的尺寸即为(m-filter_size+1)×(n-filter_size+1)

273fe2ccf8d85ebc269453b1059c95c6.jpeg
图源http://ufldl.stanford.edu/tutorial/supervised/FeatureExtractionUsingConvolution/

在全连接神经网络,图像数据以及特征是以列向量的形式进行存储。而在卷积神经网络中,数据的格式主要是以张量(可以理解为多维数组)的形式存储。图片的格式为一个三维张量,行×列×通道数。卷积核的格式为一个四维张量,卷积核数×行×列×通道数

卷积操作是每次取出卷积核中的一个,一个卷积核的格式为三维,为行×列×通道数。对应通道序号的图片与卷积核经过二维卷积操作后(即上图所示操作),得到该通道对应的卷积结果,将所有通道的结果相加,得到输出图像的一个通道。每个卷积核对应输出图像的一个通道,即输出图像的通道数等于卷积核的个数。

这里概念有一点绕,但是卷积神经网络中所谓张量的卷积,本质上是进行了一共卷积核数×通道数二维卷积操作。每一个卷积核对应卷积结果的一个通道,每一个卷积核的通道对应原始图片的一个通道。这个操作和一个列向量乘上一个矩阵得到一个新的列向量有相似的地方。

下图直观地展示了张量卷积具体操作过程:

ed2688de5a8f71f4b55c48fb1638fd84.jpeg
图源http://cs231n.github.io/convolutional-networks/侵删

池化操作介绍

所谓的池化,就是对图片进行降采样,最大池化就是在图片中用每个区域的最大值代表这个区域,平均池化就是用每个区域平均值代表这个区域。

f8f74df358f63352f61c3bed9649514b.jpeg
图源http://cs231n.github.io/convolutional-networks/侵删

卷积神经网络反向传播推导

池化层反向传播

池化层的反向传播比较容易理解,我们以最大池化举例,上图中,池化后的数字6对应于池化前的红色区域,实际上只有红色区域中最大值数字6对池化后的结果有影响,权重为1,而其它的数字对池化后的结果影响都为0。假设池化后数字6的位置delta误差为 ,误差反向传播回去时,红色区域中最大值对应的位置delta误差即等于 ,而其它3个位置对应的delta误差为0。

因此,在卷积神经网络最大池化前向传播时,不仅要记录区域的最大值,同时也要记录下来区域最大值的位置,方便delta误差的反向传播。

而平均池化就更简单了,由于平均池化时,区域中每个值对池化后结果贡献的权重都为区域大小的倒数,所以delta误差反向传播回来时,在区域每个位置的delta误差都为池化后delta误差除以区域的大小。

卷积层反向传播

虽然卷积神经网络的卷积运算是一个三维张量的图片和一个四维张量的卷积核进行卷积运算,但最核心的计算只涉及二维卷积,因此我们先从二维的卷积运算来进行分析:

ff62b7aa4d780e79c2d0708512afaca0.jpeg

如上图所示,我们求原图A处的delta误差,就先分析,它在前向传播中影响了下一层的哪些结点。显然,它只对结点C有一个权重为B的影响,对卷积结果中的其它结点没有任何影响。因此A的delta误差应该等于C点的delta误差乘上权重B。

b7cef092b625d37f01ca0baa15e7268f.jpeg

我们现在将原图A点位置移动一下,再看看变换位置后A点的delta误差是多少,同样先分析它前向传播影响了卷积结果的哪些结点。经过分析,A点以权重C影响了卷积结果的D点,以权重B影响了卷积结果的E点。那它的delta误差就等于D点delta误差乘上C加上E点的delta误差乘上B。

大家可以尝试用相同的方法去分析原图中其它结点的delta误差,结果会发现,原图的delta误差,等于卷积结果的delta误差经过零填充后,与卷积核旋转180度后的卷积。如下图所示:

bad92782ae59912b21909195e75ec6d9.jpeg
图源https://grzegorzgwardys.wordpress.com/2016/04/22/8/侵删

好了,直观上的理解有了,我们接下来用数学公式来对此进行证明,尽管它们会有些枯燥:

让我们回顾一下delta误差的定义,是损失函数对于当前层未激活输出 的导数,我们现在考虑的是二维卷积,因此,每一层的delta误差是一个二维的矩阵。 表示的是第l层坐标为(x,y)处的delta误差。假设我们已经知道第l+1层的delta误差,利用求导的链式法则,可以很容易写出下式:

在这里,坐标(x',y')是第l+1层中在前向传播中受第l层坐标(x,y)影响到的点,它们不止一个,我们需要将它们加起来。再利用前向传播的关系式:

402 Payment Required

我们可以进一步将表达式展开:

后面一大串尽管看起来很复杂,但实际上很容易就可以简化:

402 Payment Required

同时我们得到两个限制条件 和

将限制条件代入上式可得:

再令 以及

402 Payment Required

我们最终的结论得到了:

我们可以短暂的庆祝一下子了,然而我们目前的结论还只是基于二维卷积,我们还需要把它推广到我们卷积神经网络中张量的卷积中去。

再回顾一下张量的卷积,后一层的每个通道都是由前一层的各个通道经过卷积再求和得到的。

等等,这个关系听起来好像有点熟悉,如果把通道变成结点,把卷积变成乘上权重,这个是不是和全连接神经网络有些类似呢?

b773ef5f79ca0223d3049ab64c19e924.jpeg

上图中每根连线都代表与一个二维卷积核的卷积操作,假设第l层深度为3,第l+1层深度为2,卷积核的维度就应该为2×filter_size×filter_size×3。第l层的通道1通过卷积影响了第l+1层的通道1和通道2,那么求第l层通道1的delta误差时,就应该根据求得的二维卷积的delta误差传播方式,将第l+1层通道1和通道2的delta误差传播到第l层的delta误差进行简单求和即可。

已知第l层delta误差,求该层的参数的导数

,

第l层卷积核 是一个4维张量,它的维度表示为卷积核个数×行数×列数×通道数。实际上,可以把它视为有卷积核个数×通道数个二维卷积核,每个都对应输入图像的对应通道和输出图像的对应通道,每一个二维卷积核只涉及到一次二维卷积运算。那求得整个卷积核的导数,只需分析卷积核数×通道数次二维卷积中每个二维卷积核的导数,再将其组合成4维张量即可。

所以我们分析二维卷积即可:

498a25175763ca2d9aa0f7405e3b9e89.jpeg

可以利用之前的分析方法,卷积核上点A显然对卷积结果每一个点都有影响。它对卷积结果的影响等于将整个原图左上3×3的部分乘上点A的值,因此delta误差反向传播回时,点A的导数等于卷积结果的delta误差与原图左上3×3红色部分逐点相乘后求和。因此二维卷积核的导数等于原图对应通道与卷积结果对应通道的delta误差直接进行卷积。

402 Payment Required

我们将原图通道数×卷积结果通道数个二维卷积核的导数重新进行组合成4为张量,即可得到整个卷积核的导数。

下面我们从数学公式进行推导:

402 Payment Required

同样我们可以进行简化,并得到两个限制条件: 和 :

这一次我们并不需要进行旋转180度这种操作。

已知第l层delta误差,求该层的参数的导数

我们的 是一个列向量,它给卷积结果的每一个通道都加上同一个标量。因此,在反向传播时,它的导数等于卷积结果的delta误差在每一个通道上将所有delta误差进行求和的结果。

402 Payment Required

提供简单的公式证明如下:

402 Payment Required

由于 为1

所以:

得证

卷积神经网络包括卷积层,池化层和全连接层,本文介绍了卷积层和池化层的反向传播算法以及各层参数导数的计算方法,全连接层的反向传播方法以及参数导数的计算在之前文章中也介绍过了。

让我们对卷积神经网络的训练过程进行一个总结:

  1. 对神经网络进行初始化,定义好网络结构,设定好激活函数,对卷积层的卷积核W、偏置b进行随机初试化,对全连接层的权重矩阵W和偏置b进行随机初始化。
    设置好训练的最大迭代次数,每个训练batch的大小,学习率

  2. 从训练数据中取出一个batch的数据

  3. 从该batch数据中取出一个数据,包括输入x以及对应的正确标注y

  4. 将输入x送入神经网络的输入端,得到神经网络各层输出参数和

  5. 根据神经网络的输出和标注值y计算神经网络的损失函数

  6. 计算损失函数对输出层的delta误差

  7. 利用相邻层之间delta误差的递推公式求得每一层的delta误差
    如果是全连接层δδσ
    如果是卷积层

    402 Payment Required


    如果是池化层

    402 Payment Required

  8. 利用每一层的delta误差求出损失函数对该层参数的导数
    如果是全连接层:
    δ ,δ
    如果是卷积层:

  9. 将求得的导数加到该batch数据求得的导数之和上(初始化为0),跳转到步骤3,直到该batch数据都训练完毕

  10. 利用一个batch数据求得的导数之和,根据梯度下降法对参数进行更新

    402 Payment Required


    402 Payment Required

  11. 跳转到步骤2,直到达到指定的迭代次数

参考:

[1]刘建平Pinard:卷积神经网络(CNN)反向传播算法

[2]Grzegorz Gwardys:Convolutional Neural Networks backpropagation: from intuition to derivation

[3]Kunlun Bai:A Comprehensive Introduction to Different Types of Convolutions in Deep Learning

[4]CS231n Convolutional Neural Networks for Visual Recognition

猜您喜欢:

c36b5ec242f62d87b51a129248acf3e6.png 戳我,查看GAN的系列专辑~!

一顿午饭外卖,成为CV视觉前沿弄潮儿!

CVPR 2022 | 25+方向、最新50篇GAN论文

 ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

09bd1a1a0fea24bffe795d1872396d1f.png

  • 1
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 卷神经网络(Convolutional Neural Network,CNN)是一种常用于图像识别和计算机视觉任务的深度学习模型。其理论推导过程如下: 1. 卷操作:CNN的核心操作是卷操作。卷操作是指将输入图像与一个称为卷核的小矩阵进行卷运算,生成一张新的特征图。卷运算可以有效地提取图像的局部特征,由于权重共享机制,使得卷网络能够处理大规模图像且减少参数的数量。 2. 激活函数:卷操作后,需要对特征图进行非线性变换,引入了激活函数。常用的激活函数有ReLU(Rectified Linear Unit)、Sigmoid和Tanh等。 3. 池化操作:在卷操作后,通常会进行池化操作。池化操作通过在特征图上滑动一个固定大小的窗口,将窗口内的特征进行聚合,生成新的特征图。池化操作能够压缩特征图的空间尺寸并保留主要特征,减少网络对位置的敏感性。 4. 全连接层:经过多次卷和池化操作后,得到的特征图需要通过全连接层进行分类或回归。全连接层将特征图展开成一维向量,与权重矩阵相乘后经过激活函数得到最终的输出结果。 5. 损失函数与优化:在训练过程中,需要定义一个损失函数来度量模型输出与真实值之间的差异。常用的损失函数有均方误差损失和交叉熵损失。通过反向传播算法,计算损失函数对网络中各个参数的梯度,并使用梯度下降优化算法来更新参数,使得模型能够逐渐收敛。 以上就是CNN的理论推导详细过程,包括卷操作、激活函数、池化操作、全连接层和损失函数与优化等关键步骤。通过这些过程,CNN能够自动从输入图像中提取特征,并进行有效的分类与预测。 ### 回答2: CNN(卷神经网络)是一种经典的深度学习模型,主要用于图像处理和模式识别任务。以下是CNN的理论推导过程的详细步骤: 1. 卷操作:CNN的核心是卷操作,它通过将图像与一个卷核进行卷运算来提取特征。卷操作是通过将卷核滑动到图像的每个位置,将每个位置上的像素与卷核中的权重相乘,然后求和得到输出特征图的一个像素。 2. 激活函数:卷操作之后通常会使用激活函数来引入非线性。常用的激活函数包括ReLU、Sigmoid和Tanh等。激活函数能够增加网络的表达能力,使其能够更好地拟合复杂的数据分布。 3. 池化操作:在卷操作之后,通常会加入池化层来减小特征图的尺寸,并降低网络的计算复杂度。常用的池化操作包括最大池化和平均池化,它们分别选取特定区域中的最大值或平均值作为输出。 4. 多层堆叠:CNN通常由多个卷层、激活函数层和池化层堆叠而成。通过多层堆叠,网络能够在不同层次上提取图像的不同抽象特征。 5. 全连接层:在经过多层的卷和池化之后,通常会添加全连接层来进行最后的分类。全连接层中的神经元与前一层的所有神经元相连接,它能够结合前面层次提取的特征来进行分类。 6. 损失函数和优化:在训练CNN时,需要定义一个损失函数来度量模型的预测值与真实值之间的差异,并使用优化算法来最小化损失函数。常用的优化算法包括梯度下降法和反向传播算法。 总的来说,CNN通过堆叠卷、激活、池化和全连接层的方式,以及使用损失函数和优化算法来实现对图像的特征提取和分类。通过反向传播算法CNN能够自动学习到适合特定任务的卷核和网络参数,从而提高模型的预测准确性。 ### 回答3: 卷神经网络(Convolutional Neural Network,简称CNN)是一种广泛应用于图像处理和识别任务的深度学习模型。它的核心思想是通过卷操作来提取图像中的特征,并通过深层次的网络结构实现对特征的高级抽象和分类。 CNN的理论推导包含以下的详细过程: 1. 数据预处理:在使用CNN之前,需要对输入数据进行预处理。常见的预处理方法包括图像的归一化、标准化和平衡化等操作,以便提高模型的训练效果。 2. 卷操作:卷CNN的核心操作,它通过在输入图像上滑动一个固定大小的卷核(也称为滤波器)来提取局部的特征。卷核与输入图像的对应位置相乘,并将结果相加得到输出特征图。 3. 激活函数:卷操作后,需要对输出进行激活函数处理。常用的激活函数有ReLU、Sigmoid和Tanh等,它们能够增加网络的非线性表达能力,并提高模型的性能。 4. 池化操作:池化是一种降采样操作,它能够通过减少特征图的尺寸,提取更加鲁棒的特征,并减少模型的参数数量。常见的池化操作有最大池化和平均池化,它们分别选择局部区域内的最大值和平均值作为输出。 5. 全连接层:在经过多次卷和池化操作后,最后一层通常是全连接层。全连接层将前一层的输出展平成一个向量,并通过矩阵运算和激活函数处理,得到最终的分类结果。 6. 损失函数:为了评价模型的性能,需要定义损失函数来衡量模型的预测值与真实标签之间的差异。常见的损失函数有交叉熵损失函数和均方误差损失函数等。 7. 反向传播:通过反向传播算法,从输出层到输入层逐层计算每个参数对损失的贡献,并根据损失的梯度更新参数,以使得模型的输出更加接近真实标签。 8. 模型训练:通过迭代训练样本,更新模型的参数,使得模型在训练数据上的损失逐渐减小。常见的优化算法有随机梯度下降和Adam等。 以上是CNN的理论推导的详细过程,通过以上的步骤,我们可以得到一个训练好的CNN模型,用于图像处理和识别任务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值