CNN-LeNet、AlexNet、VGG 和 ResNet

下面是 LeNet、AlexNet、VGG 和 ResNet 的详细介绍,包括它们的架构、特点和对计算机视觉的贡献。

1. LeNet (LeNet-5)

发表时间:1998年

提出者:Yann LeCun 等

主要特点

  • 网络结构:LeNet-5 是 LeNet 系列中的第五个版本,具有 7 层网络结构(不包括输入层和输出层),包括卷积层、池化层和全连接层。结构如下:

    1. 输入层:32x32 的灰度图像。
    2. 卷积层 C1:6 个 5x5 的卷积核,生成 28x28 的特征图。
    3. 池化层 S2:2x2 的最大池化层,将特征图尺寸缩小到 14x14。
    4. 卷积层 C3:16 个 5x5 的卷积核,生成 10x10 的特征图。
    5. 池化层 S4:2x2 的最大池化层,将特征图尺寸缩小到 5x5。
    6. 全连接层 C5:120 个神经元。
    7. 全连接层 F6:84 个神经元。
    8. 输出层:10 个神经元(用于分类)。
  • 贡献

    • 引入卷积神经网络(CNN):LeNet 是早期成功应用卷积神经网络(CNN)进行手写数字识别的经典模型。
    • 应用于手写数字识别:特别是在 MNIST 数据集上取得了显著的效果。
    • 奠定了 CNN 的基础:LeNet 的设计理念和网络结构对后来的深度学习模型有着深远的影响。

2. AlexNet

发表时间:2012年

提出者:Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton

主要特点

  • 网络结构:AlexNet 是一个更深、更复杂的卷积神经网络。主要包含 8 层(5 个卷积层和 3 个全连接层)。结构如下:

    1. 输入层:224x224 的 RGB 图像。
    2. 卷积层 Conv1:96 个 11x11 的卷积核,步幅 4,生成 55x55 的特征图。
    3. 池化层 MaxPool1:3x3 的最大池化层,将特征图尺寸缩小到 27x27。
    4. 卷积层 Conv2:256 个 5x5 的卷积核,生成 27x27 的特征图。
    5. 池化层 MaxPool2:3x3 的最大池化层,将特征图尺寸缩小到 13x13。
    6. 卷积层 Conv3:384 个 3x3 的卷积核,生成 13x13 的特征图。
    7. 卷积层 Conv4:384 个 3x3 的卷积核,生成 13x13 的特征图。
    8. 卷积层 Conv5:256 个 3x3 的卷积核,生成 13x13 的特征图。
    9. 池化层 MaxPool3:3x3 的最大池化层,将特征图尺寸缩小到 6x6。
    10. 全连接层 FC1:4096 个神经元。
    11. 全连接层 FC2:4096 个神经元。
    12. 输出层:1000 个神经元(ImageNet 分类任务的输出)。
  • 贡献

    • 突破性的性能:在 2012 年的 ImageNet 大规模视觉识别挑战赛中取得了显著的胜利,性能大幅提升。
    • 引入 ReLU 激活函数:使用了 ReLU 激活函数和 dropout 技术来减少过拟合。
    • 使用数据增强:在训练过程中使用了数据增强技术。

3. VGG (VGGNet)

发表时间:2014年

提出者:Karen Simonyan 和 Andrew Zisserman

主要特点

  • 网络结构:VGGNet 以其深度和简单的卷积层结构著称,主要有 VGG16 和 VGG19 两个版本。结构如下(以 VGG16 为例):

    1. 输入层:224x224 的 RGB 图像。
    2. 卷积层 Conv1:64 个 3x3 的卷积核。
    3. 卷积层 Conv2:64 个 3x3 的卷积核。
    4. 池化层 MaxPool1:2x2 的最大池化层。
    5. 卷积层 Conv3:128 个 3x3 的卷积核。
    6. 卷积层 Conv4:128 个 3x3 的卷积核。
    7. 池化层 MaxPool2:2x2 的最大池化层。
    8. 卷积层 Conv5:256 个 3x3 的卷积核。
    9. 卷积层 Conv6:256 个 3x3 的卷积核。
    10. 卷积层 Conv7:256 个 3x3 的卷积核。
    11. 池化层 MaxPool3:2x2 的最大池化层。
    12. 卷积层 Conv8:512 个 3x3 的卷积核。
    13. 卷积层 Conv9:512 个 3x3 的卷积核。
    14. 卷积层 Conv10:512 个 3x3 的卷积核。
    15. 池化层 MaxPool4:2x2 的最大池化层。
    16. 全连接层 FC1:4096 个神经元。
    17. 全连接层 FC2:4096 个神经元。
    18. 输出层:1000 个神经元(ImageNet 分类任务的输出)。
  • 贡献

    • 深层网络结构:VGGNet 的设计简单且具有深度,显著提高了模型的表现。
    • 深层卷积:使用了多个小卷积核而非大卷积核来减少计算复杂性并提高精度。

4. ResNet (Residual Network)

发表时间:2015年

提出者:Kaiming He 等

主要特点

  • 网络结构:ResNet 通过引入残差块(Residual Block),允许网络学习残差(即输入和输出之间的差异)。结构如下(以 ResNet-50 为例):

    1. 输入层:224x224 的 RGB 图像。
    2. 卷积层 Conv1:64 个 7x7 的卷积核,步幅 2。
    3. 池化层 MaxPool1:3x3 的最大池化层。
    4. 残差块:包含多个残差块,每个块有两个或三个卷积层。
      • 第一阶段:3 个残差块。
      • 第二阶段:4 个残差块。
      • 第三阶段:6 个残差块。
      • 第四阶段:3 个残差块。
    5. 全连接层:1000 个神经元(ImageNet 分类任务的输出)。
  • 贡献

    • 残差连接:通过引入残差连接,有效解决了深层网络中的梯度消失问题,允许网络变得更深。
    • 深层网络训练:使得非常深的网络(如 ResNet-152)能够有效训练并实现更高的准确率。
    • 网络设计:提供了一种新的网络设计思路,使得深层网络训练更加稳定。

总结

这些模型代表了卷积神经网络发展的不同阶段:

  • LeNet:开创了 CNN 的基本结构。
  • AlexNet:显著提升了深度学习模型的性能,推动了 CNN 在计算机视觉中的应用。
  • VGG:提供了深层网络设计的范例,强调了深度的优势。
  • ResNet:通过残差连接解决了深层网络训练中的难题,实现了更深的网络设计和更高的准确率。

每个模型都有其独特的特点和贡献,对计算机视觉的发展起到了重要作用。

  • 11
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值