YotoR(You Only Transform One Representation)

        本文介绍了一种名为YotoR(You Only Transform One Representation)的新型深度学习目标检测模型。该模型将Swin Transformers与YoloR架构相结合。在自然语言处理领域引起革命的Transformer技术,如今同样对计算机视觉产生了深远影响,展现出显著提升准确性和计算效率的潜力。

        YotoR将健壮的Swin Transformer主干网与YoloR的 Neck 和 Head 结合在一起。实验证明了两种模型结合的有效性。

        感兴趣的小伙伴可以去看看原文:https://arxiv.org/pdf/2405.19629

一、模型BackBone

        上图展示了用于主干网的Swin Transformer简化架构,特别是被称为Swin T的小型(Tiny)版本。该架构主要分为四个阶段

  • 图像被划分为小块,然后这些小块被转换为标记。通过线性嵌入层,这些标记被转换成特定大小的标记

  • 输入到第一阶段的第一组Swin Transformer块中

  • 三个阶段由一个块合并模块组成,该模块通过组的方式合并块,将特征图的宽度和高度分辨率减半

  • 传递给相应的Swin Transformer块数组

二、模型 Head

        如上图所示,为了构建YoloR模型,作者选择了基于Scaled YoloV4的架构,特别是以YoloV4-P6-light为基础,并对其进行了逐步修改,以创建不同版本的YoloR:P6、W6、E6和D6。具体的修改如下:

  • Yolo-P6:将YoloV4-P6-light的Mish激活函数替换为SiLU

  • Yolo-W6:增加了Backbone块输出的通道数

  • Yolo-E6:将W6的通道数增加至原来的1.25倍,并将下采样卷积替换为CSP卷积

  • Yolo-D6:增加了Backbone网络的深度

 三、模型效果

  • 如上展示了四个YotoR模型在val2017数据集上的mAP(平均精度均值)结果。TP5和BP4模型的表现超越了所有基准模型,即使是作为参照的YoloR P6,其mAP表现也非常出色。唯一没有超越的模型是BB4。

  • 然而,考虑到BB4完全基于Swin B构建,并且没有使用YoloR P6的Head,这一结果是可以理解的。尽管如此,BB4的性能仍然优于Swin B,这表明探索更大模型(如Swin L)的潜力,且Swin L的性能优于YoloR D6。

 

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值