AI 图像分割模型是计算机视觉中的核心研究方向之一,广泛用于自动驾驶、医学影像、遥感图像分析等领域。下面是对图像分割模型的一些 总汇与归类,按任务类型与模型架构演进进行系统整理。
图像分割模型总览
图像分割可以按任务类别划分为:
一、按任务类型分类
任务类型 | 描述 |
---|
1. 语义分割 (Semantic Segmentation) | 为每个像素赋予一个语义标签(如人、车、背景),不区分实例。 |
2. 实例分割 (Instance Segmentation) | 分割图像中每个独立实例,兼顾语义分割与目标检测。 |
3. 全景分割 (Panoptic Segmentation) | 同时输出语义信息和实例边界,融合语义+实例分割。 |
4. 视频分割 (Video Segmentation) | 分割连续帧中的对象,考虑时序一致性。 |
5. 医学图像分割 | CT/MRI 等医学图像中的器官、病灶等分割,精度要求高。 |
二、按模型架构发展演进分类
1️编码器-解码器结构(Encoder-Decoder)
模型 | 年份 | 特点 |
---|
FCN (Fully Convolutional Network) | 2015 | 第一代语义分割,使用卷积替代全连接层输出像素标签。 |
SegNet | 2015 | 解码器部分用最大池化索引进行上采样。 |
U-Net | 2015 | 医学图像经典结构,编码器对称连接解码器(skip connection)。 |
DeepLab 系列 (v1-v3+) | 2015~2018 | 使用 Atrous 空洞卷积+CRF 后处理,v3+引入更深层次的 encoder(Xception)。 |
2️基于注意力机制的模型
模型 | 年份 | 特点 |
---|
PSPNet | 2017 | Pyramid Scene Parsing 模块,用于捕捉多尺度上下文信息。 |
OCRNet (Object-Contextual Representation) | 2020 | 使用对象上下文注意力机制。 |
CCNet | 2019 | 使用 Criss-Cross Attention 捕捉长程依赖。 |
3️基于 Transformer 的分割模型(Vision Transformer 类)
模型 | 年份 | 特点 |
---|
SETR (Segmenter using Transformer) | 2020 | 用纯 Transformer 替代 CNN 提取特征。 |
Segmenter | 2021 | 类似 ViT,在 patch token 上直接做分割预测。 |
MaskFormer / Mask2Former | 2021~2022 | 使用统一架构处理语义/实例/全景分割,基于 Transformer 解码。 |
MedFormer | 2022 | 专用于医学图像的 Transformer 分割模型。 |
4️实例与全景分割方向
模型 | 类型 | 特点 |
---|
Mask R-CNN | 实例分割 | 在 Faster R-CNN 加上 mask 分支。 |
YOLACT / YOLACT++ | 实时实例分割 | Yolo 风格,效率优先,分割质量略差。 |
SOLO / SOLOv2 | 实例分割 | 通过空间位置分类完成实例划分。 |
Panoptic FPN | 全景分割 | 多任务训练语义分割与实例分割。 |
Detectron2(Meta) | 框架 | 提供包括 Mask R-CNN, Panoptic FPN 等模型的实现。 |
5️轻量化 & 工业部署方向
模型 | 特点 |
---|
BiSeNet (v1 / v2) | 实时语义分割,速度快,用于移动设备。 |
ENet | 极轻量的早期模型。 |
Fast-SCNN | 适用于嵌入式系统的实时语义分割。 |
三、按应用领域划分(补充)
领域 | 代表模型 | 说明 |
---|
医学图像 | U-Net, nnUNet, MedFormer | 精细结构、多类器官分割 |
自动驾驶 | DeepLab, PSPNet, Panoptic FPN | 大场景语义+实例分割 |
遥感图像 | HRNet, UNet++ | 处理高分辨率地理图像 |
工业缺陷检测 | SegNet, U-Net 变种 | 对纹理和形状敏感 |
常用开源库 / 工具框架
名称 | 简介 |
---|
Detectron2 | Meta AI 的分割框架,支持多种模型。 |
mmsegmentation | OpenMMLab 出品,功能全面,支持训练/评估。 |
SegFormer / Mask2Former (Hugging Face) | 多种预训练 Transformer 分割模型。 |
MONAI | 医学图像分割 PyTorch 工具集。 |
NVIDIA TAO Toolkit | 工业部署、轻量化分割方案,适配 Jetson。 |
小结图:
FCN
├── SegNet
├── U-Net
│ ├── UNet++
│ └── nnUNet
└── DeepLab → DeepLabv3+
注意力机制
├── PSPNet
└── OCRNet, CCNet
Transformer系列
├── SETR, Segmenter
└── MaskFormer → Mask2Former
实例分割
├── Mask R-CNN
├── SOLO
└── YOLACT
全景分割
└── Panoptic FPN
轻量化方向
├── ENet
├── BiSeNet
└── Fast-SCNN