Backbone
在计算机视觉中,Backbone(主干网络) 是深度学习模型的特征提取器,通常是用于从输入图像中提取高级语义特征的卷积神经网络部分,后续模块(如检测头、分割头等)就是基于这些特征进行推理。
下面是一些常用的主干网络(Backbone)及其特点分类:
🔹 1. ResNet 系列(Residual Networks)
-
代表模型:ResNet-18, ResNet-50, ResNet-101, ResNet-152
-
特点:
-
引入 残差连接(skip connection),解决深层网络的梯度消失问题;
-
模型越深通常提取的特征越丰富,性能越好;
-
-
应用场景:目标检测(Faster R-CNN、Mask R-CNN)、图像分类等。
🔹 2. VGG 系列
-
代表模型:VGG-16, VGG-19
-
特点:
-
结构简单,全部使用 3x3 卷积 + 池化;
-
参数量大,计算开销大;
-
-
现状:较老,已逐渐被 ResNet、MobileNet 等替代。
🔹 3. MobileNet 系列
-
代表模型:MobileNetV1/V2/V3
-
特点:
-
轻量级网络,适合移动端、嵌入式设备;
-
使用 深度可分离卷积 大幅降低计算量;
-
-
应用场景:实时检测、边缘设备部署。
🔹 4. EfficientNet 系列
-
代表模型:EfficientNet-B0 ~ B7
-
特点:
-
使用复合缩放策略同时放大网络的深度、宽度和分辨率;
-
性能与速度兼顾,是一种高性价比的 backbone;
-
-
应用场景:分类、检测、分割等任务。
🔹 5. ConvNeXt
-
作者:Meta AI
-
特点:
-
借鉴了 Transformer 的设计灵感,但仍使用纯 CNN 架构;
-
在 ImageNet 上超越了许多 Transformer 模型;
-
-
现代化的 CNN,兼顾精度与效率。
🔹 6. Swin Transformer
-
特点:
-
基于窗口的自注意力机制,属于视觉 Transformer;
-
支持多尺度特征提取,非常适合作为分割或检测任务的 backbone;
-
-
已广泛用于 Mask R-CNN、Cascade R-CNN 等。
🔹 7. Vision Transformer (ViT)
-
结构:纯 Transformer 架构,打破 CNN 框架;
-
特点:
-
不用卷积,直接处理图像 patch;
-
对训练数据规模和计算资源较为敏感;
-
-
应用趋势:ViT + Hybrid CNN 架构逐渐成为主流。
📊 简单对比(以 ImageNet 为例):
Backbone | Params | FLOPs | Top-1 Acc | 特点说明 |
---|---|---|---|---|
ResNet-50 | 25M | 4 GF | 76.0% | 主流基线,高性能 |
MobileNetV2 | 3.4M | 0.3GF | 72.0% | 移动端友好,轻量 |
EfficientNet-B0 | 5.3M | 0.39GF | 77.1% | 性能优越,参数较少 |
Swin-T | 29M | 4.5GF | 81.3% | 视觉 Transformer,表现强 |
ViT-B/16 | 86M | 17.6GF | 79.7% | 大模型,对数据依赖高 |