Backbone

Backbone

在计算机视觉中,Backbone(主干网络) 是深度学习模型的特征提取器,通常是用于从输入图像中提取高级语义特征的卷积神经网络部分,后续模块(如检测头、分割头等)就是基于这些特征进行推理。

下面是一些常用的主干网络(Backbone)及其特点分类:

🔹 1. ResNet 系列(Residual Networks)

  • 代表模型:ResNet-18, ResNet-50, ResNet-101, ResNet-152

  • 特点

    • 引入 残差连接(skip connection),解决深层网络的梯度消失问题;

    • 模型越深通常提取的特征越丰富,性能越好;

  • 应用场景:目标检测(Faster R-CNN、Mask R-CNN)、图像分类等。

🔹 2. VGG 系列

  • 代表模型:VGG-16, VGG-19

  • 特点

    • 结构简单,全部使用 3x3 卷积 + 池化;

    • 参数量大,计算开销大;

  • 现状:较老,已逐渐被 ResNet、MobileNet 等替代。

🔹 3. MobileNet 系列

  • 代表模型:MobileNetV1/V2/V3

  • 特点

    • 轻量级网络,适合移动端、嵌入式设备;

    • 使用 深度可分离卷积 大幅降低计算量;

  • 应用场景:实时检测、边缘设备部署。

🔹 4. EfficientNet 系列

  • 代表模型:EfficientNet-B0 ~ B7

  • 特点

    • 使用复合缩放策略同时放大网络的深度、宽度和分辨率;

    • 性能与速度兼顾,是一种高性价比的 backbone;

  • 应用场景:分类、检测、分割等任务。

🔹 5. ConvNeXt

  • 作者:Meta AI

  • 特点

    • 借鉴了 Transformer 的设计灵感,但仍使用纯 CNN 架构;

    • 在 ImageNet 上超越了许多 Transformer 模型;

  • 现代化的 CNN,兼顾精度与效率。

🔹 6. Swin Transformer

  • 特点

    • 基于窗口的自注意力机制,属于视觉 Transformer;

    • 支持多尺度特征提取,非常适合作为分割或检测任务的 backbone;

  • 已广泛用于 Mask R-CNN、Cascade R-CNN 等。

🔹 7. Vision Transformer (ViT)

  • 结构:纯 Transformer 架构,打破 CNN 框架;

  • 特点

    • 不用卷积,直接处理图像 patch;

    • 对训练数据规模和计算资源较为敏感;

  • 应用趋势:ViT + Hybrid CNN 架构逐渐成为主流。

📊 简单对比(以 ImageNet 为例):

BackboneParamsFLOPsTop-1 Acc特点说明
ResNet-5025M4 GF76.0%主流基线,高性能
MobileNetV23.4M0.3GF72.0%移动端友好,轻量
EfficientNet-B05.3M0.39GF77.1%性能优越,参数较少
Swin-T29M4.5GF81.3%视觉 Transformer,表现强
ViT-B/1686M17.6GF79.7%大模型,对数据依赖高
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值