AlexNet Vgg16 Inception ResNet 区别与联系

最新推荐文章于 2024-08-27 15:48:27 发布

算法恩仇录

最新推荐文章于 2024-08-27 15:48:27 发布

阅读量4.3k

点赞数 2

分类专栏：神经网络

神经网络专栏收录该内容

2 篇文章 0 订阅

订阅专栏

参考：https://zhuanlan.zhihu.com/p/32116277

https://yq.aliyun.com/articles/598430

http://www.cnblogs.com/52machinelearning/p/5821591.html

https://blog.csdn.net/sinat_31824577/article/details/70953891

AlexNet

AlexNet是一个较早应用在ImageNet上的深度网络，其准确度相比传统方法有一个很大的提升。

框架：5个卷积层，然后紧跟着是3个全连接层，采用了ReLU激活函数。

preview

特点1：ReLU相比Sigmoid的优势是其训练速度更快，因为Sigmoid的导数在稳定区会非常小，从而权重基本上不再更新。这就是梯度消失问题。因此AlexNet在卷积层和全连接层后面都使用了ReLU。

特点2：每个全连接层后面加上Dropout层减少了模型的过拟合问题。

VGG16

VGG16是牛津大学VGG组提出的。VGG16相比AlexNet的一个改进是采用连续的几个3x3的卷积核代替AlexNet中的较大卷积核（11x11，5x5）。对于给定的感受野（与输出有关的输入图片的局部大小），采用堆积的小卷积核是优于采用大的卷积核，因为多层非线性层可以增加网络深度来保证学习更复杂的模式，而且代价还比较小（参数更少）。

特点：使用了一种块结构：多次重复使用同一大小的卷积核来提取更复杂和更具有表达性的特征。这种块结构（blocks/modules）在VGG之后被广泛采用。

GoogLeNet/Inception

GoogLeNet基于这样的理念：在深度网路中大部分的激活值是不必要的（为0），或者由于相关性是冗余。因此，最高效的深度网路架构应该是激活值之间是稀疏连接的，这意味着512个输出特征图是没有必要与所有的512输入特征图相连。

据此，GoogLeNet设计了一种称为inception的模块，这个模块使用密集结构来近似一个稀疏的CNN，如下图所示。前面说过，只有很少一部分神经元是真正有效的，所以一种特定大小的卷积核数量设置得非常小。同时，GoogLeNet使用了不同大小的卷积核来抓取不同大小的感受野。

特点1：最后的卷积层后使用全局均值池化层替换了全连接层，所谓全局池化就是在整个2D特征图上取均值。这大大减少了模型的总参数量。

特点2：使用了一中瓶颈层（实际上就是1x1卷积）来降低计算量。

ResNet

ResNet提出了残差思想，将输入中的一部分数据不经过神经网络，而直接进入到输出中。这样来保留一部分原始信息，防止反向传播时的梯度弥散问题，从而使得网络深度一举达到152层。

这个网络的提出本质上还是要解决层次比较深的时候无法训练的问题。这种借鉴了Highway Network思想的网络相当于旁边专门开个通道使得输入可以直达输出，而优化的目标由原来的拟合输出H(x)变成输出和输入的差H(x)-x，其中H(X)是某一层原始的的期望映射输出，x是输入。

特点：深

Q：现有的流行的网络及其特点？

1.AlexNet 包括五层卷积层和三层全连接层，其中一个完整的卷积层可能包括一层convolution，一层Rectified Linear Units，一层max-pooling，一层normalization。
2. vgg 使用了更多的卷积层，严格使用3×3卷积，步长和padding都为1，还有2×2的步长为2的maxpooling层。
3. GoogLenet 大大加深了网络的层数，Inception Module采用不同尺度的卷积核。去掉了最后的full-connected layer，用globalpooling代替大大减小了参数。
4. Resnet 引入了残差模块，解决了层次比较深的时候无法训练的问题（由于网络太深会导致梯度弥散/爆炸无法收敛）。