【YOLOv8改进】DAT(Deformable Attention):可变性注意力 (论文笔记+引入代码)

YOLO目标检测创新改进与实战案例专栏

专栏目录: YOLO有效改进系列及项目实战目录 包含卷积,主干 注意力,检测头等创新机制 以及 各种目标检测分割项目实战案例

专栏链接: YOLO基础解析+创新改进+实战案例

介绍

image-20240525100636046

摘要

Transformers最近在各种视觉任务中展现出了优越的性能。较大甚至是全局的感受野赋予了Transformer模型比其卷积神经网络(CNN)对手更强的表征能力。然而,简单地扩大感受野也带来了几个问题。一方面,使用密集注意力(例如在ViT中)会导致过高的内存和计算成本,并且特征可能会受到兴趣区域之外的无关部分的影响。另一方面,PVT或Swin Transformer采用的稀疏注意力对数据不敏感,可能限制了建模长距离关系的能力。为了解决这些问题,我们提出了一种新型的可变形自注意力模块,其中在自注意力中键和值对的位置是以数据为基础选择的。这种灵活的方案使自注意力模块能够聚焦于相关区域并捕捉更多信息特征。在此基础上,我们提出了Deformable Attention Transformer,这是一种用于图像分类和密集预测任务的通用主干模型,具有可变形注意力。广泛的实验表明,我们的模型在综合基准测试中实现了持续改进的结果。代码可在https://github.com/LeapLabTHU/DAT获取。

文章链接

论文地址:论文地址

代码地址:代码地址

参考代码:代码地址

基本原理

关键

  1. 数据依赖的位置选择:Deformable Attention允许在自注意力机制中以数据依赖的方式选择键和值对的位置,使模型能够根据输入数据动态调整注意力的焦点。
  2. 灵活的偏移学习:通过学习偏移量,Deformable Attention可以将关键点和值移动到重要区域,从而提高模型对关键特征的捕获能力。
  3. 全局键共享:Deformable Attention学习一组全局键,这些键在不同的视觉标记之间共享,有助于模型捕获长距离的相关性。
  4. 空间自适应机制:Deformable Attention可以根据输入数据的特征动态调整注意力模式,从而适应不同的视觉任务和场景。

通过相对于Swin-Transformer和PVT的改进,加入了可变形机制,同时控制网络不增加太多的计算量。作者认为,缩小q对应的k的范围ÿ

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
可变形注意力机制(Deformable Attention Mechanism, DAT)是一种注意力机制,它能够根据输入数据的形状和结构自适应地调整注意力的分布。这种机制可以更好地捕捉到数据中的复杂模式和结构,从而在各种任务中表现出色。 DAT的核心思想是引入了一个可变形注意力图卷积层(Deformable Graph Convolution, DGC),该层能够根据输入特征图的位置和形状自适应地生成注意力权重。通过引入可变形图卷积层,DAT能够灵活地处理具有不同形状和尺寸的输入特征图,并在处理过程中捕捉到潜在的复杂模式和结构。 在传统的注意力机制中,注意力权重通常是静态的,它们是在一个固定的窗口内生成的,不能适应输入数据的动态变化。而DAT通过引入可变形注意力图卷积层,能够根据输入特征图的形状和结构自适应地生成注意力权重,从而更好地捕捉到数据中的动态变化和复杂模式。 DAT在视觉任务中表现出了优越的性能,例如目标检测、图像分割和人脸识别等。它能够有效地提高模型的性能,特别是在处理具有复杂形状和结构的任务时。此外,DAT还具有较低的计算复杂性和较小的内存需求,使其在实时应用中具有优势。 总的来说,可变形注意力机制DAT是一种具有创新性的注意力机制,它能够根据输入数据的形状和结构自适应地调整注意力的分布,从而在各种视觉任务中表现出色。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YOLO大王

你的打赏,我的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值