下面是一份较为详细的深度学习中主流分类模型、检测模型和分割模型的介绍,便于读者对当前常用的网络架构及其演进脉络有一个系统性的了解。可作为在实际项目中选择或对比不同模型方案的参考。
一、图像分类主流模型
图像分类是计算机视觉最基础也是最早得到广泛应用的任务之一,深度学习兴起后,卷积神经网络(CNN)在 ImageNet 等大规模数据集上的突破表现使其成为主流方法。下面介绍从早期到新一代的经典分类网络。
1. AlexNet (2012)
- 模型由来:在 ImageNet 2012 竞赛中,AlexNet 以显著优势夺冠,开启了深度学习在计算机视觉领域的热潮。
- 特点:
- 使用了 ReLU 作为激活函数,相较于传统的 Sigmoid 或 Tanh,有效缓解了梯度弥散问题并加快训练收敛速度。
- 通过 数据增强(图像随机裁剪、翻转)和 Dropout 技术来缓解过拟合。
- 模型规模(权重数)在当时而言较大,但和后续的网络相比仍相对较小。
2. VGG 系列 (2014)
- 模型由来:由牛津大学的 Visual Geometry Group 提出,代表性的版本是 VGG16、VGG19。
- 特点:
- 使用 小尺寸卷积核(3×3) 不断堆叠的方式,结构简洁易于理解。
- 通过加深网络层数(16 层或 19 层)来增强模型的特征表达能力。
- 参数量和计算量随层数增多而显著增加,导致推理速度较慢、对显存需求大。
3. GoogleNet (Inception 系列, 2014-2015)
- 模型由来:Google 团队提出的 Inception 体系,代表作品有 GoogLeNet (Inception v1)、Inception v2/v3、Inception v4 等。
- 特点:
- 采用 Inception 模块:在同一层网络中,通过并行的不同尺寸卷积(1×1、3×3、5×5)以及池化层,融合多尺度信息。
- 减少参数量:通过 1×1 卷积 降维后再做大卷积,有效降低运算量。
- 后续版本不断引入 批归一化(Batch Normalization) 等技巧,提高模型精度和收敛速度。
4. ResNet 系列 (2015)
- 模型由来:微软研究院提出的 Residual Network,在 ImageNet 大规模竞赛中再度刷新记录。
- 特点:
- 残差结构(Residual Block):通过跨层连接(skip connection)解决了网络加深时梯度消失和退化问题,让网络可以堆叠到数百层。
- 常见版本:ResNet18、ResNet34、ResNet50、ResNet101、ResNet152 等。
- 成为后续许多网络结构(如检测和分割模型)的主干骨干网络(Backbone)。
5. DenseNet 系列 (2016)
- 模型由来:Huang 等人提出 Dense Convolutional Network。
- 特点:
- 密集连接(Dense Connection):将每一层的输出特征与后续所有层进行连接,从而充分利用各层特征并缓解梯度消失。
- 参数更高效:相比于同等规模的 ResNet,DenseNet 通常能在相对较少的参数量下获得更好的性能。
6. MobileNet 系列 (2017-2019)
- 模型由来:Google 提出的面向移动和嵌入式设备的轻量化网络。
- 特点:
- 深度可分离卷积(Depthwise Separable Convolution):将传统卷积分解成 Depthwise 和 Pointwise 两步,大幅减少参数量和运算量。
- 系列版本:MobileNetV1、V2、V3,后续版本在结构设计和注意力机制等方面做了改进。
- 广泛应用:适合在移动端、物联网设备等对计算资源有限的场景下进行快速推理。
7. EfficientNet 系列 (2019)
- 模型由来:Google Brain 团队提出,通过 复合缩放(Compound Scaling) 方法在深度(depth)、宽度(width)、分辨率(resolution)之间找到最优的均衡。
- 特点:
- 提供一套从 EfficientNet-B0 到 B7 等不同规模的模型,在准确率与计算量之间实现较好的平衡。
- 后续还衍生出 EfficientNet-Lite 等适用于移动设备的版本。
8. Vision Transformer (ViT) 系列 (2020 起)
- 模型由来:谷歌提出将 Transformer 架构引入计算机视觉,ViT 在大型数据集(如 JFT-300M)上训练后在 ImageNet 取得出色表现。
- 特点:
- 将图像切分成 Patch,并将其视作序列输入到 Transformer 中,无需传统 CNN 的卷积操作。
- 自注意力机制(Self-Attention) 能够建模全局关系,对局部特征依赖性较低。
- 需要极大的数据量才能充分发挥 Transformer 架构优势,通常需要与预训练相结合。
总结:
图像分类网络从最早的 AlexNet、VGG,到 ResNet 引入残差结构,再到 DenseNet、MobileNet 追求高效低耗,直至最近的 ViT 在大型数据集上崭露头角,充分体现了网络结构在深度、宽度、效率和注意力机制之间的不断演进与融合。
二、目标检测主流模型
目标检测在图像分类的基础上增加了目标的位置定位需求(边界框)。根据是否需要生成候选区域,可分为 两阶段(Two-Stage) 和 一阶段(One-Stage) 方法;近年来也出现了完全基于注意力机制的检测框架。
1. R-CNN 家族
1.1 R-CNN (2013)
- 思路:先采用传统方法(如 Selective Search)提取候选区域,对每个候选区域进行 CNN 特征提取后再分类和位置回归。
- 缺点:计算冗余,速度慢;每个候选框都要单独跑 CNN。
1.2 Fast R-CNN (2015)
- 改进:先对整张图像提取卷积特征,再通过候选框映射(RoI Pooling)来进行分类和边界回归。
- 效果:大幅减少了重复特征计算,速度明显提升。
1.3 Faster R-CNN (2015)
- 创新:引入 Region Proposal Network (RPN),在 CNN 特征图上生成候选区域替代传统 Selective Search。
- 特点:两阶段检测流程高度集成在一个网络里,速度更快、精度更高,成为两阶段检测的典范。
2. 一阶段检测家族
2.1 YOLO 系列 (2016-至今)
- YOLOv1 (2016)
- 思想:将检测当作一个回归问题,在输出层直接预测类别和边界框位置。
- 优点:实时性能好;缺点是精度不及两阶段方法。
- YOLOv2 / YOLO9000 (2017)、YOLOv3 / YOLOv4 / YOLOv5、YOLOX、YOLOv7、YOLOv8 等后续版本
- 不断对网络结构和损失函数等方面进行优化,如 Darknet53 主干网络、Anchor-free 思路、PANet 结构等。
- 注重速度与精度的平衡,成为工业界实时检测的常用选择。
2.2 SSD (Single Shot MultiBox Detector, 2016)
- 思路:在多尺度特征图上直接回归边界框和预测类别。
- 特点:针对多尺度检测有较好效果,且速度快。
2.3 RetinaNet (2017)
- 引入 Focal Loss:解决了检测任务中正负样本分布不均衡的问题,减少简单负样本对损失的干扰。
- 精度:一阶段检测中精度较高,成为学术研究和工业应用中的重要基准方法。
3. 基于 Transformer 的检测:DETR 系列 (2020 起)
- DETR:Facebook AI Research 提出,用 Transformer + Bipartite Matching 端到端实现检测,不需要手动设计 Anchor 和 NMS(非极大抑制)。
- 优缺点:
- 优点:网络结构简洁,没有手工设计的超参(例如 Anchor 尺寸);可同时用于检测、分割、关键点检测。
- 缺点:训练收敛慢、对大规模数据需求较高,在小目标场景下效果有待提升。
- 后续改进:如 Deformable DETR、SMCA、Conditional DETR,在收敛速度和精度上做了进一步优化。
总结:
目标检测模型从最初的 R-CNN 到 Faster R-CNN,再到 YOLO、SSD、RetinaNet 等一阶段流派,一直在平衡速度与精度的需求。近年来,Transformer 架构也逐步进入检测领域并不断迭代。
三、图像分割主流模型
图像分割需要对每个像素赋予标签(语义分割)或区分不同实例(实例分割)。相对于分类和检测,分割的输出精度粒度更高,难度也更大。下面介绍常见的分割模型及其演进。
1. 早期语义分割:FCN (Fully Convolutional Network, 2014)
- 核心思想:将传统的全连接层改成卷积层,从而可以输出与输入图像大小相同的特征图,并做像素级预测。
- 贡献:证明了深度 CNN 在像素级预测任务中的可行性,开启了深度学习时代的语义分割研究。
- 不足:分辨率会降低,需要后续的上采样方法来恢复空间分辨率。
2. U-Net 系列 (2015)
- 提出背景:最初在医学图像分割中大放异彩,因其在小样本条件下也能取得不错效果而被广泛应用于各类分割任务。
- 网络结构:典型的 Encoder-Decoder 架构,在下采样提取特征的同时,通过 Skip Connection 将高分辨率的特征与 Decoder 阶段融合,从而得到更加准确的边界。
- 衍生:U-Net++、Attention U-Net 等在网络结构和注意力机制方面进行优化。
3. SegNet (2015)
- Encoder-Decoder 结构:与 U-Net 思路类似,但采用 Max-Pooling Index 来指导上采样,在分割精度和计算效率之间取得平衡。
4. DeepLab 系列 (2015-2018)
- DeepLab v1/v2:引入 空洞卷积(Dilated Convolution),在不增加参数量的情况下扩大感受野;并结合 CRF(条件随机场) 后处理以优化边界。
- DeepLab v3:采用 空洞空间金字塔池化(ASPP) 模块,多尺度地提取上下文信息。
- DeepLab v3+:在 v3 基础上增加 Encoder-Decoder 结构,使边界预测更精准,成为语义分割任务中的重要基准模型。
5. PSPNet (Pyramid Scene Parsing Network, 2017)
- 创新:提出 金字塔池化模块(Pyramid Pooling Module, PPM),通过不同尺度的全局池化分支捕捉多尺度的全局上下文。
- 效果:在多个分割数据集上取得优秀结果,验证了多尺度特征融合对于分割精度的重要性。
6. Mask R-CNN (2017)
- 提出背景:在 Faster R-CNN 的框架下增加了一个分割分支,用于预测对象的像素级掩码,从而完成 实例分割。
- 特征:
- 对每个检测到的对象进行像素级分割,区别不同实例。
- 采用 RoI Align 替代传统的 RoI Pooling,避免量化误差,使分割精度更高。
- 影响:成为实例分割的经典模型,后续许多工作都在其基础上改进。
7. SOLO / SOLOv2
- Anchor-free 实例分割:将图像网格化,不再基于边界框进行检测再分割,而是直接对每个网格单元进行实例预测。
- 优点:网络结构简洁,速度较快,在保持精度的同时减少了一些手工设计的超参。
8. Segment Anything (Meta AI, 2023)
- 提出背景:Meta (Facebook) AI 提出的 SAM (Segment Anything Model),可对几乎任意物体进行分割,且不需要大量的专门训练数据。
- 技术亮点:
- 使用大型 ViT 作为基础编码器,对图像进行全局特征提取。
- 利用 Prompt(如点、框、文本)交互式地指导分割目标,具有高度通用性。
- 意义:将大模型和分割相结合,提供了一个通用的、可交互的分割框架,引领了新的研究方向。
总结:
分割领域从最早的 FCN 发展到基于多尺度上下文的 PSPNet、DeepLab 系列,再到侧重实例分割的 Mask R-CNN、SOLO 等。近年基于 Transformer、大规模预训练及交互式理念(如 Segment Anything)的出现,使分割向着“通用分割”与“可交互性”方向快速演进。
四、模型选择与发展趋势
-
模型选择
- 图像分类:在硬件资源充裕的情况下可选择更复杂的网络(如 ResNet101、Vision Transformer),在移动端或嵌入式设备上则可选轻量级网络(如 MobileNet、EfficientNet-Lite)。
- 目标检测:若实时性要求高,可选 YOLO 系列或 SSD;若对精度要求更高且可以接受较低帧率,则可考虑两阶段方法(Faster R-CNN)或改进版(Cascade R-CNN、Hybrid Task Cascade 等)。
- 图像分割:需要平衡模型复杂度与精度,语义分割可用 DeepLab v3+ 或 PSPNet,实例分割可用 Mask R-CNN;若想尝试最前沿的分割方法,可以研究基于 Transformer 的 DETR 系列或 Segment Anything。
-
发展趋势
- Transformer+CNN 融合:在视觉领域,Transformer 与 CNN 已不断融合,出现了如 Swin Transformer、CvT (Convolutional Vision Transformer) 等混合结构。
- 大规模预训练模型:与自然语言处理类似,视觉领域也在快速推进大模型(如 CLIP、SAM),将通用特征学习与下游任务迁移结合起来。
- 轻量化与部署优化:模型剪枝、量化、知识蒸馏以及更高效的算子优化,对边缘设备、移动端应用至关重要。
- 多任务联合:检测、分割、关键点识别等多任务融合的趋势明显,如可在同一套网络架构下完成多种视觉任务,从而提升部署效率和整体性能。
总结
深度学习在图像分类、目标检测和图像分割领域取得了显著的成功,各自涌现出一系列经典且广泛应用的模型。从 AlexNet、VGG、ResNet 等分类“老将”,到 YOLO、SSD、Faster R-CNN 等检测利器,再到 DeepLab、PSPNet、Mask R-CNN 等分割先锋,新的网络架构与训练策略不断迭代与优化。近年,Transformer 和 大模型 的崛起又为计算机视觉注入了新的思路和动力。
在实际工程中,模型选择往往需要综合考虑 精度、速度、硬件资源、数据规模 等多重因素;加之前沿技术迅猛发展,需要持续跟进新的研究成果、框架与工具,以便及时对模型进行适配、优化与升级。通过对上述主流模型的系统了解,可以更好地在不同业务需求和场景下做出合适的技术决策。
以上即为深度学习中主流图像分类、目标检测和图像分割模型的较为详细的介绍,涵盖其代表性网络、核心思想、演进历程及应用场景。希望能帮助读者在面对实际视觉任务时更加得心应手,也为后续进一步的实现与实践提供思路
【哈佛博后带小白玩转机器学习】 哔哩哔哩_bilibili
总课时超400+,时长75+小时
。