卷积神经网络基本结构

最新推荐文章于 2024-09-10 21:39:58 发布

coding-the-world

最新推荐文章于 2024-09-10 21:39:58 发布

阅读量765

点赞数 1

分类专栏：深度学习-卷积神经网络原理介绍文章标签： cnn 深度学习神经网络

本文链接：https://blog.csdn.net/m0_47245778/article/details/124637618

版权

卷积神经网络梯度下降反向传播小批量随机梯度下降参数更新

关键词由CSDN通过智能技术生成

深度学习-卷积神经网络原理介绍专栏收录该内容

2 篇文章 0 订阅

订阅专栏

从“卷积神经网络（Convolution Neural Network, CNN）”这几个字眼中不难看出，首先，其为神经网络；其次，该网络中包含卷积操作。在CNN中，通常将卷积操作的某一层定义为卷积层，网络中主要以“层”来命名。

CNN的输入是原始的数据，数据可以为图像、音频等。其包含两个过程：前馈计算和反馈传播（反向传播实现），个人认为二者是不同的，反向传播是反馈传播的一种实现方式。其中前馈计算用于提取特征，利用深度学习中常用的梯度下降和反向传播来更新梯度。这里又涉及到了梯度，因为CNN的最后一层是全连接层，用于计算前向计算的预测值与真实值之间的误差。然后利用误差不断的进行链式求导，即可得到梯度，最后利用梯度依次更新整个过程中存在的每一层，直到满足某一阈值即停止。

在上述提及到梯度下降和反向传播，梯度下降即对目标函数求导，然后沿着导数和步长的乘积的反方向更新x，知道满足某一条件停止。反向传播是以梯队下降为基础的。在更新每一层参数的过程中，对其梯度的计算中采用链式求导，利用梯度和学习率/步长实现该层参数的更新。

卷积神经网络中存在卷积操作、汇合或者池化操作以及一些非线性的激活函数。卷积网络的最后一层将任务形式化为目标函数（分类一般用交叉熵，回归用L2损失函数等）。

在卷积神经网络中，一般采用小批量的随机梯度下降法。以往的梯度下降中每一次参数的更新都会利用整个数据集进行实现，导致更新速度较慢。之后便诞生了随机梯度下降法。该方法每次更新时，只利用一个样本数据实现，但是如果样本中存在较多的噪声干扰，这种方法很难向着梯度最优的方向进行更新。为此，深度学习中采用小批量的随机梯度下降实现。即进行网络训练时，设置的batch size 的大小。每次梯度计算时，先将batch size大小下的梯度进行计算并暂存，然后进行下一个batch size大小的计算，直至遍历完一次完整的数据集，最后将暂存的梯度进行叠加，再进行一次反馈计算，更新参数，整个过程又名为：完成一个epoch的训练。

batch size 的大小可以人为设定，一般为2的N次方。但也不可以设置的过小，过小时即退化为随机梯度下降，其上限受限于GPU显存的大小。

上述阐述均是个人的理解，如有误，希望大家评论区留言指正！