1、AlexNet
AlexNet网络结构相对简单,使用了8层卷积卷积神经网络,前5层是卷积层,剩下的3层是全连接层,具体如下所示。
但局限性限制了其训练速度,需要进行一定程度的改进。采用修正线性单元(ReLU)的深度卷积神经网络训练时间比等价的tanh单元要快几倍。而时间开销是进行模型训练过程中很重要的考量因素之一。同时,ReLU有效防止了过拟合现象的出现。由于ReLU激活函数的高效性与实用性,使得它在深度学习框架中占有重要地位。
Dropout操作会将概率小于0.5的每个隐层神经元的输出设为0,即去掉了一些神经节点,达到防止过拟合。那些“失活的”神经元不再进行前向传播并且不参与反向传播。这个技术减少了复杂的神经元之间的相互影响。相关情况如下所示。
2、VGG-16
vgg16总共有16层,13个卷积层和3个全连接层,第一次经过64个卷积核的两次卷积后,采用一次pooling,第二次经过两次128个卷积核卷积后,再采用pooling,再重复两次三个512个卷积核卷积后,再pooling,最后经过三次全连接。
其网络结构如下所示。 卷积层均采用相同的卷积核参数,这样就能够使得每一个卷积层(张量)与前一层(张量)保持相同的宽和高;池化层均采用相同的池化核参数,池化层采用尺寸为2X2,stride=2,max的池化方式,使得池化后的层尺寸长宽为未池化前的1/2;利用小尺寸卷积核等效大尺寸卷积核,2个3X3卷积核的感受野与1个5X5卷积核相当,3个3X3卷积核与1个7X7卷积核相当,故在特征提取效果相当时,多个小卷核与大卷积核相比,学习参数更少,计算量较小,训练更加快速,还能增加网络的深度,提升模型性能。
对于该网络的改进, 网络规模进一步增大,参数数量约为1.38亿 。由于各卷积层、池化层的超参数基本相同,整体结构呈现出规整的特点。
3、残差网络
残差网络和之前的网络最大的不,同就是多了一条identity的捷径分支。而因为这一条分支的存在,使得网络在反向传播时,损失可以通过这条捷径将梯度直接传向更前的网络,从而减缓了网络退化的问题。在第二节分析网络退化的原因时,我们了解到梯度之间是有相关性的。我们在有了梯度相关性这个指标之后,作者分析了一系列的结构和激活函数,发现resnet在保持梯度相关性方面很优秀,从梯度流来看,有一路梯度是保持原样不动地往回传,这部分的相关性是非常强的。除此之外,残差网络并没有增加新的参数,只是多了一步加法。而在GPU的加速下,这一点额外的计算量几乎可以忽略不计。
由上图可以看出,56-layer(层)的网络比20-layer的网络在训练集和测试集上的表现都要差,说明如果只是简单的增加网络深度,可能会使神经网络模型退化,进而丢失网络前面获取的特征。
残差网络可以表示为如下所示。普通网络的基准模型受VGG网络的启发,卷积层主要有3×3的过滤器,并遵循两个简 单的设计规则:①对输出特征图的尺寸相同的 各层,都有相同数量的过滤器; ②如果特征图的大小减半,那么过滤器的数量就增加一 倍,以保证每一层的时间复杂度相同。
4、总结
经典网络是以“一个或多个卷积层+一个池化层“作为一个基本 单元进行堆叠,在网络尾部使用全连接层,最后以Softmax为分 类器,输出结果。 残差网络是在普通网络的基础上,将浅层的激活项通过支路直接传向深层,克服深层神经网络中梯度消失的问题,为训练极深的 神经网络提供便利。