CNN-LeNet、AlexNet、VGG 和 ResNet

最新推荐文章于 2024-09-04 18:15:32 发布

Carrie_Lei

最新推荐文章于 2024-09-04 18:15:32 发布

阅读量413

点赞数 11

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/finly4599/article/details/141892925

版权

下面是 LeNet、AlexNet、VGG 和 ResNet 的详细介绍，包括它们的架构、特点和对计算机视觉的贡献。

发表时间：1998年

提出者：Yann LeCun 等

主要特点：

网络结构：LeNet-5 是 LeNet 系列中的第五个版本，具有 7 层网络结构（不包括输入层和输出层），包括卷积层、池化层和全连接层。结构如下：
1. 输入层：32x32 的灰度图像。
2. 卷积层 C1：6 个 5x5 的卷积核，生成 28x28 的特征图。
3. 池化层 S2：2x2 的最大池化层，将特征图尺寸缩小到 14x14。
4. 卷积层 C3：16 个 5x5 的卷积核，生成 10x10 的特征图。
5. 池化层 S4：2x2 的最大池化层，将特征图尺寸缩小到 5x5。
6. 全连接层 C5：120 个神经元。
7. 全连接层 F6：84 个神经元。
8. 输出层：10 个神经元（用于分类）。
贡献：
- 引入卷积神经网络（CNN）：LeNet 是早期成功应用卷积神经网络（CNN）进行手写数字识别的经典模型。
- 应用于手写数字识别：特别是在 MNIST 数据集上取得了显著的效果。
- 奠定了 CNN 的基础：LeNet 的设计理念和网络结构对后来的深度学习模型有着深远的影响。

发表时间：2012年

提出者：Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton

主要特点：

网络结构：AlexNet 是一个更深、更复杂的卷积神经网络。主要包含 8 层（5 个卷积层和 3 个全连接层）。结构如下：
1. 输入层：224x224 的 RGB 图像。
2. 卷积层 Conv1：96 个 11x11 的卷积核，步幅 4，生成 55x55 的特征图。
3. 池化层 MaxPool1：3x3 的最大池化层，将特征图尺寸缩小到 27x27。
4. 卷积层 Conv2：256 个 5x5 的卷积核，生成 27x27 的特征图。
5. 池化层 MaxPool2：3x3 的最大池化层，将特征图尺寸缩小到 13x13。
6. 卷积层 Conv3：384 个 3x3 的卷积核，生成 13x13 的特征图。
7. 卷积层 Conv4：384 个 3x3 的卷积核，生成 13x13 的特征图。
8. 卷积层 Conv5：256 个 3x3 的卷积核，生成 13x13 的特征图。
9. 池化层 MaxPool3：3x3 的最大池化层，将特征图尺寸缩小到 6x6。
10. 全连接层 FC1：4096 个神经元。
11. 全连接层 FC2：4096 个神经元。
12. 输出层：1000 个神经元（ImageNet 分类任务的输出）。
贡献：
- 突破性的性能：在 2012 年的 ImageNet 大规模视觉识别挑战赛中取得了显著的胜利，性能大幅提升。
- 引入 ReLU 激活函数：使用了 ReLU 激活函数和 dropout 技术来减少过拟合。
- 使用数据增强：在训练过程中使用了数据增强技术。

发表时间：2014年

提出者：Karen Simonyan 和 Andrew Zisserman

主要特点：

网络结构：VGGNet 以其深度和简单的卷积层结构著称，主要有 VGG16 和 VGG19 两个版本。结构如下（以 VGG16 为例）：
1. 输入层：224x224 的 RGB 图像。
2. 卷积层 Conv1：64 个 3x3 的卷积核。
3. 卷积层 Conv2：64 个 3x3 的卷积核。
4. 池化层 MaxPool1：2x2 的最大池化层。
5. 卷积层 Conv3：128 个 3x3 的卷积核。
6. 卷积层 Conv4：128 个 3x3 的卷积核。
7. 池化层 MaxPool2：2x2 的最大池化层。
8. 卷积层 Conv5：256 个 3x3 的卷积核。
9. 卷积层 Conv6：256 个 3x3 的卷积核。
10. 卷积层 Conv7：256 个 3x3 的卷积核。
11. 池化层 MaxPool3：2x2 的最大池化层。
12. 卷积层 Conv8：512 个 3x3 的卷积核。
13. 卷积层 Conv9：512 个 3x3 的卷积核。
14. 卷积层 Conv10：512 个 3x3 的卷积核。
15. 池化层 MaxPool4：2x2 的最大池化层。
16. 全连接层 FC1：4096 个神经元。
17. 全连接层 FC2：4096 个神经元。
18. 输出层：1000 个神经元（ImageNet 分类任务的输出）。
贡献：
- 深层网络结构：VGGNet 的设计简单且具有深度，显著提高了模型的表现。
- 深层卷积：使用了多个小卷积核而非大卷积核来减少计算复杂性并提高精度。

发表时间：2015年

提出者：Kaiming He 等

主要特点：

网络结构：ResNet 通过引入残差块（Residual Block），允许网络学习残差（即输入和输出之间的差异）。结构如下（以 ResNet-50 为例）：
1. 输入层：224x224 的 RGB 图像。
2. 卷积层 Conv1：64 个 7x7 的卷积核，步幅 2。
3. 池化层 MaxPool1：3x3 的最大池化层。
4. 残差块：包含多个残差块，每个块有两个或三个卷积层。
  - 第一阶段：3 个残差块。
  - 第二阶段：4 个残差块。
  - 第三阶段：6 个残差块。
  - 第四阶段：3 个残差块。
5. 全连接层：1000 个神经元（ImageNet 分类任务的输出）。
贡献：
- 残差连接：通过引入残差连接，有效解决了深层网络中的梯度消失问题，允许网络变得更深。
- 深层网络训练：使得非常深的网络（如 ResNet-152）能够有效训练并实现更高的准确率。
- 网络设计：提供了一种新的网络设计思路，使得深层网络训练更加稳定。

这些模型代表了卷积神经网络发展的不同阶段：

每个模型都有其独特的特点和贡献，对计算机视觉的发展起到了重要作用。

关注