YotoR:融合 Swin Transformer 和YoloR 的混合架构,提升目标检测性能

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

8679e4eb607d895716768eaecc08bdd2.gif

57a9e77183c30ca3bc5852d7ee347174.gif

公众号ID计算机视觉研究院

学习群扫码在主页获取加入方式

67a0ffb6c2f45ab75554536837a07d17.png

  • 论文地址:https://arxiv.org/pdf/2405.19629

计算机视觉研究院专栏

Column of Computer Vision Institute

今天给大家介绍了YotoR(You Only Transform One Representation),这是一种新的目标检测深度学习模型,结合了Swin Transformers和YoloR架构。

65de73bf377a88b181ae8da4712efa1f.gif

PART/1

   摘要   

Transformers是自然语言处理领域的一项革命性技术,它也对计算机视觉产生了重大影响,有可能提高准确性和计算效率。YotoR将坚固的Swin Transformer主干与YoloR颈部和头部相结合。在实验中,YotoR模型TP5和BP4在各种评估中始终优于YoloR P6和Swin Transformers,比Swin Transformer模型提供了改进的目标检测性能和更快的推理速度。这些结果突出了进一步的模型组合和改进Transformer实时目标检测的潜力。最后强调了YotoR的更广泛含义,包括它在增强基于Transformer的图像相关任务模型方面的潜力。

PART/2

   背景&动机   

在过去的十年里,卷积神经网络彻底改变了计算机视觉应用,实现了目标检测、图像分割和实例分割等任务求解。尽管近年来卷积网络主干得到了改进,甚至在一些任务上超过了人类的性能,但Transformer在计算机视觉任务中的使用在几年内仍然难以捉摸。Transformer在计算机视觉任务中的首次应用于2020年提出。然而,由于图像的高分辨率,Transformers的使用仅限于图像分类等低分辨率应用。像物体检测这样的高分辨率任务需要开发更专业的Transformer架构,比如Swin Transformer,它通过动态改变注意力窗口来规避变形金刚的计算限制,并允许它们用作多视觉任务的通用主干。此外,基于DETR等Transformer的目标检测头在以前由卷积神经网络主导的任务中已经成为最先进的。

另一方面,以Yolo/YoloR家族为例的实时目标检测器对于依赖高帧率的任务(如自动驾驶)或受有限硬件资源限制的平台上的任务仍然是必不可少的。尽管计算机视觉的Transformer最近取得了进展,但实时物体检测主要依赖于卷积神经网络。它们在特征提取中建立的可靠性和计算效率一直是Transformers需要克服的挑战。然后,将Transformer与类Yolo目标检测器相结合,可以提供能够实现高帧率和高检测精度的新型架构。

PART/3

   新框架   

多任务架构的使用前景看好,因为它们可以整合多种信息模态以提高所有任务的性能。然而,设计能够在实时中执行多任务的建筑结构是具有挑战性的,因为使用每个任务的网络集合会负面影响系统的运行时间。

981880cff9997035b6ffd566d0cd3aa3.png

在这项工作中,引入了一系列网络体系结构,将Swin Transformer主干与YoloR头融合在一起。受Yolo命名法的启发,这些架构被命名为YotoR:You Only Transform One Representation。这反映了使用由Transformer块生成的单一统一表示,该表示通用且适用于多个任务。该提案背后的想法是使用强大的Swin Transformers特征提取来提高检测精度,同时还能够通过使用YoloR头以快速推理时间解决多个任务。

Backbone

与YoloR及其基本模型P6之间的关系类似,YotoR TP4是YotoR模型的起点,代表了最基本的组件组合。使用不变的SwinT主干也有一个显著的优势,可以应用迁移学习技术。这是因为,通过不改变Swin Transformer的结构,可以使用其创建者公开提供的重量。这简化了将预先训练的Swin-Transformer权重转移到其他数据集的过程,加快了训练过程并提高了性能。

c79348ff245719f6ed53f9d914e931f6.png

Head

为了构建YoloR模型,决定以Scaled YoloV4的架构为基础。特别是,他们从YoloV4-P6光作为基础开始,并依次对其进行修改,以创建不同版本的YoloR:P6、W6、E6和D6。这些版本之间的变化如下:

–YoloR-P6:用SiLU替换了YoloV4-P6-light的Mish激活功能

–YoloR-W6:增加了主干块输出中的通道数量

–YoloR-E6:将W6的通道数乘以1.25,并用CSP卷积代替下采样卷积

–YoloR-D6:增加了骨干的深度

YotoRmodels

选择YotoR模式进行实施涉及到两个重要方面。首先,分析了Swin Transformer主干生成的特征金字塔尺寸与YoloR头所需尺寸之间的差异。这些维度之间的显著差异可能会在网络中造成瓶颈,从而限制其性能。其次,为了调整连接,Swin Transformer的功能必须重新整形为带有注意力图的图像。然后将其归一化并通过1×1卷积来调整通道的数量。这样做是为了使YoloR头具有与DarknetCSP主干相同的功能大小,并软化连接之间的信息瓶颈。

a627b2ae523c627c639d14034862b994.png

显示了YotoR BP4体系结构。它介绍了STB(Swin Transformer Block),代表了不同YotoR架构中使用的Swin TransformerBlock。此外,在这些组件之间还包含一个线性嵌入块。这个线性嵌入块来自用于目标检测的Swin Transformer实现,并在没有更改的情况下被合并到YotoR实现中。之所以选择这四个模型,是因为它们由YoloR和Swin Transformer的基本架构组成,从而可以进行有效的比较来评估所提出的模型的有效性。虽然考虑了对YotoR BW4或YotoR BW 5等大型模型进行训练和评估,但V100 GPU的资源限制使此选项不可行。

PART/4

   实验及可视化   

训练参数:

859c460b5995f5200d5abba8f74bbf77.png

637b65e9ee5fb6740525efc401f1e7c1.png

c7f31c511be8f9f8c9b932def6aaea22.png

左图:val2017和testdev的图片。右图:YotoR BP4的预测。

与开始时的状态比较(批次=1,GPU=V100)。*表示我们自己使用16GBV100GPU确认的测量结果

28d02f20ca65f086437d8730fe28ed5d.png

831f91a6acafe117b19501b76f4ad884.gif

END

ddfc8fcf3479cc140476e398f49ac501.gif

8f169216e847ecc36f67db9db2a23a74.gif

转载请联系本公众号获得授权

8fe6489f40eefe8414de94d8e7e93f7c.gif

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

d60b7fa84d6cab58fc6cdaa90c646146.png

 往期推荐 

🔗

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

计算机视觉研究院

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值