卷积神经网络经典架构

编程菜菜ghy

已于 2025-02-26 20:29:23 修改

阅读量698

点赞数 10

文章标签： cnn 人工智能神经网络

于 2025-02-26 20:25:51 首次发布

本文链接：https://blog.csdn.net/m0_64820041/article/details/145887755

版权

卷积神经网络（CNN）自诞生以来，经历了多次迭代和改进，诞生了许多经典的架构。这些架构在图像识别、分类、目标检测等领域取得了显著的成果。以下是几种经典的卷积神经网络及其架构特点：

1. LeNet-5（1998）

LeNet-5是最早的卷积神经网络之一，由Yann LeCun提出，主要用于手写数字识别（如MNIST数据集）。

架构：

输入层 (32×32灰度图像) -> 卷积层 (5×5卷积核, 6个输出通道) -> 激活层 (ReLU) -> 池化层 (2×2最大池化) ->
卷积层 (5×5卷积核, 16个输出通道) -> 激活层 (ReLU) -> 池化层 (2×2最大池化) ->
全连接层 (120个神经元) -> 激活层 (ReLU) -> 全连接层 (84个神经元) -> 激活层 (ReLU) -> 输出层 (10个神经元, Softmax)

特点：

使用了小尺寸卷积核（5×5）和最大池化。
是第一个成功应用卷积神经网络的案例，奠定了CNN的基础架构。

2. AlexNet（2012）

AlexNet由Alex Krizhevsky等人提出，在2012年的ImageNet竞赛中取得了突破性成绩，推动了深度学习的发展。

架构：

输入层 (224×224×3) -> 卷积层 (96个9×9卷积核) -> 激活层 (ReLU) -> 池化层 (2×2最大池化) ->
卷积层 (256个5×5卷积核) -> 激活层 (ReLU) -> 池化层 (2×2最大池化) ->
卷积层 (384个3×3卷积核) -> 激活层 (ReLU) ->
卷积层 (384个3×3卷积核) -> 激活层 (ReLU) ->
卷积层 (256个3×3卷积核) -> 激活层 (ReLU) -> 池化层 (2×2最大池化) ->
全连接层 (4096个神经元) -> 激活层 (ReLU) -> Dropout (0.5) ->
全连接层 (4096个神经元) -> 激活层 (ReLU) -> Dropout (0.5) -> 输出层 (1000个神经元, Softmax)

特点：

使用了ReLU激活函数，缓解了梯度消失问题。
引入了Dropout正则化技术，防止过拟合。
使用了更大的卷积核和更深的网络结构。
利用GPU加速训练，大幅提高了训练效率。

3. VGGNet（2014）

VGGNet由牛津大学的Visual Geometry Group提出，主要用于ImageNet竞赛。它有多个版本，其中VGG16和VGG19最为常见。

架构（以VGG16为例）：

输入层 (224×224×3) -> 卷积层 (64个3×3卷积核) -> 激活层 (ReLU) -> 卷积层 (64个3×3卷积核) -> 激活层 (ReLU) -> 池化层 (2×2最大池化) ->
卷积层 (128个3×3卷积核) -> 激活层 (ReLU) -> 卷积层 (128个3×3卷积核) -> 激活层 (ReLU) -> 池化层 (2×2最大池化) ->
卷积层 (256个3×3卷积核) -> 激活层 (ReLU) -> 卷积层 (256个3×3卷积核) -> 激活层 (ReLU) -> 卷积层 (256个3×3卷积核) -> 激活层 (ReLU) -> 池化层 (2×2最大池化) ->
卷积层 (512个3×3卷积核) -> 激活层 (ReLU) -> 卷积层 (512个3×3卷积核) -> 激活层 (ReLU) -> 卷积层 (512个3×3卷积核) -> 激活层 (ReLU) -> 池化层 (2×2最大池化) ->
卷积层 (512个3×3卷积核) -> 激活层 (ReLU) -> 卷积层 (512个3×3卷积核) -> 激活层 (ReLU) -> 卷积层 (512个3×3卷积核) -> 激活层 (ReLU) -> 池化层 (2×2最大池化) ->
全连接层 (4096个神经元) -> 激活层 (ReLU) -> Dropout (0.5) ->
全连接层 (4096个神经元) -> 激活层 (ReLU) -> Dropout (0.5) -> 输出层 (1000个神经元, Softmax)

特点：

使用了小尺寸卷积核（3×3）和最大池化，堆叠了多个卷积层。
网络结构非常深（VGG16有16层，VGG19有19层）。
全连接层的参数量非常大，导致模型复杂度高。

4. GoogLeNet（InceptionNet，2014）

GoogLeNet由Google提出，其核心是Inception模块，旨在通过高效的结构设计减少计算量，同时提升性能。

架构：

输入层 (224×224×3) -> 卷积层 (64个7×7卷积核) -> 激活层 (ReLU) -> 池化层 (3×3最大池化) ->
Inception模块 (多个并行分支，不同尺寸的卷积核) -> 池化层 (3×3最大池化) ->
Inception模块 (多个并行分支，不同尺寸的卷积核) -> 池化层 (3×3最大池化) ->
Inception模块 (多个并行分支，不同尺寸的卷积核) -> 平均池化层 (7×7全局平均池化) -> Dropout (0.4) -> 输出层 (1000个神经元, Softmax)

特点：

使用了Inception模块，通过并行的卷积操作（1×1、3×3、5×5卷积核和池化）减少计算量。
网络非常深（22层），但计算效率高。
引入了辅助分类器（Auxiliary Classifier），用于在训练过程中提供额外的梯度信息。

5. ResNet（2015）

ResNet由微软研究院提出，解决了深度网络训练中的梯度消失和梯度爆炸问题，引入了残差学习（Residual Learning）。

架构（以ResNet-50为例）：

输入层 (224×224×3) -> 卷积层 (64个7×7卷积核) -> 激活层 (ReLU) -> 池化层 (3×3最大池化) ->
残差块 (3×3卷积核, 64个输出通道) -> 残差块 (3×3卷积核, 128个输出通道) -> 残差块 (3×3卷积核, 256个输出通道) -> 残差块 (3×3卷积核, 512个输出通道) ->
全局平均池化层 -> 输出层 (1000个神经元, Softmax)

特点：

引入了残差模块（Residual Block），通过跳跃连接（Skip Connection）解决了深层网络的梯度问题。
网络可以非常深（ResNet-50有50层，ResNet-152有152层）。
残差模块的设计使得网络可以更容易地训练。

6. DenseNet（2017）

DenseNet由黄高等人提出，进一步优化了特征传播和重用。

架构：

输入层 (224×224×3) -> 卷积层 (64个7×7卷积核) -> 激活层 (ReLU) -> 池化层 (3×3最大池化) ->
密集块 (Dense Block) -> 过渡层 (Transition Layer) -> 密集块 (Dense Block) -> 过渡层 (Transition Layer) -> 密集块 (Dense Block) -> 全局平均池化层 -> 输出层 (1000个神经元, Softmax)

特点：

每个卷积层的输出都会被后续所有层使用，增强了特征重用。
使用了过渡层（Transition Layer）来减少特征图的维度。
网络结构紧凑，参数量相对较少。

7. MobileNet（2017）

MobileNet由Google提出，旨在优化移动设备上的性能，通过深度可分离卷积（Depthwise Separable Convolution）减少计算量。

架构：

输入层 (224×224×3) -> 深度可分离卷积层 (3×3深度卷积 + 1×1逐点卷积) -> 激活层 (ReLU) -> 池化层 (3×3最大池化) ->
深度可分离卷积层 (3×3深度卷积 + 1×1逐点卷积) -> 激活层 (ReLU) -> 池化层 (3×3最大池化) ->
深度可分离卷积层 (3×3深度卷积 + 1×1逐点卷积) -> 激活层 (ReLU) -> 全局平均池化层 -> 输出层 (1000个神经元, Softmax)