卷积神经网络基本结构

        从“卷积神经网络(Convolution Neural Network, CNN)”这几个字眼中不难看出,首先,其为神经网络;其次,该网络中包含卷积操作。在CNN中,通常将卷积操作的某一层定义为卷积层,网络中主要以“层”来命名。

        CNN的输入是原始的数据,数据可以为图像、音频等。其包含两个过程:前馈计算和反馈传播(反向传播实现),个人认为二者是不同的,反向传播是反馈传播的一种实现方式。其中前馈计算用于提取特征,利用深度学习中常用的梯度下降和反向传播来更新梯度。这里又涉及到了梯度,因为CNN的最后一层是全连接层,用于计算前向计算的预测值与真实值之间的误差。然后利用误差不断的进行链式求导,即可得到梯度,最后利用梯度依次更新整个过程中存在的每一层,直到满足某一阈值即停止。

在上述提及到梯度下降和反向传播,梯度下降即对目标函数求导,然后沿着导数和步长的乘积的反方向更新x,知道满足某一条件停止。反向传播是以梯队下降为基础的。在更新每一层参数的过程中,对其梯度的计算中采用链式求导,利用梯度和学习率/步长实现该层参数的更新。

         卷积神经网络中存在卷积操作、汇合或者池化操作以及一些非线性的激活函数。卷积网络的最后一层将任务形式化为目标函数(分类一般用交叉熵,回归用L2损失函数等)。

        在卷积神经网络中,一般采用小批量的随机梯度下降法。以往的梯度下降中每一次参数的更新都会利用整个数据集进行实现,导致更新速度较慢。之后便诞生了随机梯度下降法。该方法每次更新时,只利用一个样本数据实现,但是如果样本中存在较多的噪声干扰,这种方法很难向着梯度最优的方向进行更新。为此,深度学习中采用小批量的随机梯度下降实现。即进行网络训练时,设置的batch size 的大小。每次梯度计算时,先将batch size大小下的梯度进行计算并暂存,然后进行下一个batch size大小的计算,直至遍历完一次完整的数据集,最后将暂存的梯度进行叠加,再进行一次反馈计算,更新参数,整个过程又名为:完成一个epoch的训练。

        batch size 的大小可以人为设定,一般为2的N次方。但也不可以设置的过小,过小时即退化为随机梯度下降,其上限受限于GPU显存的大小。

        上述阐述均是个人的理解,如有误,希望大家评论区留言指正!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值