GoogleNet、AleXNet、VGGNet、ResNet等总结

最新推荐文章于 2025-03-08 17:01:59 发布

小麦粒

最新推荐文章于 2025-03-08 17:01:59 发布

阅读量1.2w

点赞数 12

分类专栏： CNN keras

本文链接：https://blog.csdn.net/u010986753/article/details/99191760

版权

本文详细介绍了深度学习在图像识别领域的几个里程碑模型，包括AlexNet、VGGNet、GoogleNet（Inception结构）和ResNet。AlexNet首次引入ReLU和多GPU训练，降低ILSVRC 2012错误率。VGGNet通过重复使用小卷积核增加网络深度。GoogleNet引入Inception模块，减少参数量并提高性能。ResNet通过残差学习解决深度网络退化问题。DenseNet则通过密集连接提高特征传播效率。这些模型的进步不断推动了深度学习的发展。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录
数据和模型 https://blog.csdn.net/u010986753/article/details/98526886

一、经典的图像识别深度学习模型面世时间

1.1 VGG、AlexNet和Inception历史背景

VGG-Net 的泛化性能非常好，常用于图像特征的抽、目标检测候选框生成等。VGG 最大的问题就在于参数数量，VGG-19 基本上是参数量最多的卷积网络架构。这一问题也是第一次提出 Inception 结构的 GoogLeNet 所重点关注的，它没有如同 VGG-Net 那样大量使用全连接网络，因此参数量非常小。

AlexNet，它本质上就是扩展 LeNet 的深度，并应用一些 ReLU、Dropout 等技巧。AlexNet 有 5 个卷积层和 3 个最大池化层，它可分为上下两个完全相同的分支，这两个分支在第三个卷积层和全连接层上可以相互交换信息。与 Inception 同年提出的优秀网络还有 VGG-Net，它相比于 AlexNet 有更小的卷积核和更深的层级。

GoogLeNet 最大的特点就是使用了 Inception 模块，它的目的是设计一种具有优良局部拓扑结构的网络，即对输入图像并行地执行多个卷积运算或池化操作，并将所有输出结果拼接为一个非常深的特征图。因为 1*1、3*3 或 5*5 等不同的卷积运算与池化操作可以获得输入图像的不同信息，并行处理这些运算并结合所有结果将获得更好的图像表征。

总结：
ILSVRC(ImageNet大规模视觉识别挑战赛)每年都不断被深度学习刷榜，随着模型变得越来越深，Top-5的错误率也越来越低，目前降低到了3.5%附近，而人类在ImageNet数据集合上的辨识错误率大概在5.1%，也就是目前的深度学习模型识别能力已经超过了人类。

1.2 DNN 和 CNN

CNN：在卷积神经网络中，卷积操作和池化操作有机的堆叠在一起，一起组成了CNN的主干；

DNN:DNN其实是一种架构，是指深度超过几个相似层的神经网络结构，一般能够达到几十层，或者由一些复杂的模块组成。

1.3 LeNet

LeNet是卷积神经网络的祖师爷LeCun在1998年提出，LeNet-5（-5表示具有5个层）是一种用于手写体字符识别的非常高效的卷积神经网络。其结构：输入的二维图像，先经过两次卷积层到池化层，再经过全连接层，最后使用softmax分类作为输出层,LeNet-5包含七层。LeNet-5跟现有的conv->pool->ReLU的套路不同，它使用的方式是conv1->pool->conv2->pool2再接全连接层，但是不变的是，卷积层后紧接池化层的模式依旧不变。
手写数字识别 CNN MNIST_data LeNet https://blog.csdn.net/u010986753/article/details/96894733

各层参数详解：

INPUT层-输入层：首先是数据 INPUT 层，输入图像的尺寸统一归一化为32*32。
注意：本层不算LeNet-5的网络结构，传统上，不将输入层视为网络层次结构之一。
C1层-卷积层
详细说明：对输入图像进行第一次卷积运算（使用 6 个大小为 5*5 的卷积核），得到6个C1特征图（6个大小为28*28的 feature maps, 32-5+1=28）。我们再来看看需要多少个参数，卷积核的大小为5*5，总共就有6*（5*5+1）=156个参数，其中+1是表示一个核有一个bias。对于卷积层C1，C1内的每个像素都与输入图像中的5*5个像素和1个bias有连接，所以总共有156*28*28=122304个连接（connection）。有122304个连接，但是我们只需要学习156个参数，主要是通过权值共享实现的。
S2层-池化层（下采样层）
详细说明：第一次卷积之后紧接着就是池化运算，使用 2*2核进行池化，于是得到了S2，6个14*14的特征图（28/2=14）。S2这个pooling层是对C1中的2*2区域内的像素求和乘以一个权值系数再加上一个偏置，然后将这个结果再做一次映射。于是每个池化核有两个训练参数，所以共有2x6=12个训练参数，但是有5x14x14x6=5880个连接。
C3层-卷积层
详细说明：第一次池化之后是第二次卷积，第二次卷积的输出是C3，16个10x10的特征图，卷积核大小是 5*5. 我们知道S2 有6个 14*14 的特征图，怎么从6 个特征图得到 16个特征图了？这里是通过对S2 的特征图特殊组合计算得到的16个特征图。
S4层-池化层（下采样层）
详细说明：S4是pooling层，窗口大小仍然是2*2，共计16个feature map，C3层的16个10x10的图分别进行以2x2为单位的池化得到16个5x5的特征图。这一层有2x16共32个训练参数，5x5x5x16=2000个连接。连接的方式与S2层类似。
C5层-卷积层
详细说明：C5层是一个卷积层。由于S4层的16个图的大小为5x5，与卷积核的大小相同，所以卷积后形成的图的大小为1x1。这里形成120个卷积结果。每个都与上一层的16个图相连。所以共有(5x5x16+1)x120 = 48120个参数，同样有48120个连接。
F6层-全连接层
详细说明：6层是全连接层。F6层有84个节点，对应于一个7x12的比特图，-1表示白色，1表示黑色，这样每个符号的比特图的黑白色就对应于一个编码。该层的训练参数和连接数是(120 + 1)x84=10164。
Output层-全连接层

二、AleXNet (8层）

2.1 AlexNet介绍

AleXNet使用了ReLU方法加快训练速度，并且使用Dropout来防止过拟合，通过多GPU的训练降低训练时间。

AleXNet (8层） 是首次把卷积神经网络引入计算机视觉领域并取得突破性成绩的模型。获得了ILSVRC 2012年的冠军，再top-5项目中错误率仅仅15.3%，相对于使用传统方法的亚军26.2%的成绩优良重大突破。
和之前的LeNet相比，AlexNet通过堆叠卷积层使得模型更深更宽，同时借助GPU使得训练再可接受的时间范围内得到结果，推动了卷积神经网络甚至是深度学习的发展。
AlexNet的论文中着重解释了Tanh激活函数和ReLu激活函数的不同特点，解释了多个GPU是如何加速训练网络的，也说明了防止过拟合的一些方法。