【YOLOv10改进-注意力机制】DAT（Deformable Attention）：可变形注意力

YOLO大师

已于 2024-07-20 10:36:10 修改

阅读量238

点赞数

分类专栏： YOLOv10 创新改进有效涨点文章标签： YOLO yolov10 目标检测论文阅读人工智能

于 2024-07-06 09:27:06 首次发布

原创文章，禁止任何形式转载！

本文链接：https://blog.csdn.net/shangyanaf/article/details/140224009

版权

YOLOv10 创新改进有效涨点专栏收录该内容

66 篇文章 2 订阅 ¥99.90 ¥299.90

订阅专栏

YOLOv10目标检测创新改进与实战案例专栏

改进目录: YOLOv10有效改进系列及项目实战目录：卷积，主干注意力，检测头等创新机制

专栏链接: YOLOv10 创新改进有效涨点

介绍

摘要

Transformer最近在各种视觉任务中表现优异。全局的感知域使Transformer模型比CNN具有更强的表示能力。然而，简单地扩大感受野也引起了一些问题。一方面，使用较为密集的注意力，例如在ViT中，会导致过多的内存和计算成本，并且功能可能会受到超出兴趣区域的无关部分的影响。另一方面，在PVT或Swin Transformer中采用的较为稀疏的注意机制是与数据无关的，这可能会限制对于长距离关系的建模能力。为了缓解这些问题，论文提出了一种新的可变形的Self Attention模块，在自我注意模块中，KV键值对与数据相关。这种灵活的方案使Self Attention模块能够关注相关区域，并捕获更多的信息特性。大量实验表明，我们的模型在综合基准上取得了持续改进的结果。代码可在 https://github.com/LeapLabTHU/DAT 获得。

创新点

可变形自注意力模块的创新点包括：

通过数据相关的方式选择关键和数值对：与传统的自注意力模块不同，可变形自注意力模块可以根据数据的特点选择关键和数值对，使得模型能够更灵活地关注相关区域并捕获更多信息。
提高了模型的灵活性和效率：可变形自注意力模块通过引入偏移网络，使得候选的关键/数值向重要区域移动，从而增强了原始自注意力模块的灵活性和效率，有助于捕获更多信息。
适用于视觉识别的背骨骼：可变形自注意力模块作为视觉骨干网络的特征提取器，能够更好地提取图像特征，有助于改善图像分类、语义分割和目标检测等任务的性能。

文章链接

论文地址：论文地址

代码地址：代码地址

基本原理

这个改进型模型采用了可变形自注意力机制，允许在限定的注意力范围内灵活选择更相关的区域。这样，模型能够根据数据为每个查询动态学习不同的采样点，从而在保持高效性的同时显著提升性能。相较于传统图像处理模型，这种方法在图像分类和密集预测任务中表现出更优异的应用效果，实现了在种类分类、目标检测和分割等任务上的最先进（SOTA）性能，超越了Swin Transformer。

DAT的核心是其可变形注意力（DA）部分，它通过专注于特征图中关键区域来有效建模令牌间的关系。这些关注区域是通过学习得到的可变形采样点来确定，这些点来自于配备偏移网络的查询。

不同于可变形卷积网络（DCN），后者在特征图中学习不同像素周围的区域，DAT学习与特定查询无关的区域组合。最近研究发现，对于不同的查询，全局注意力往往产生相似的模式，这促使关键和值在重要区域集中，从而实现更高效的计

了解本专栏

YOLO大师

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【YOLOv10改进-注意力机制】DAT（Deformable Attention）：可变形注意力

Transformer最近在各种视觉任务中表现优异。全局的感知域使Transformer模型比CNN具有更强的表示能力。然而，简单地扩大感受野也引起了一些问题。一方面，使用较为密集的注意力，例如在ViT中，会导致过多的内存和计算成本，并且功能可能会受到超出兴趣区域的无关部分的影响。另一方面，在PVT或Swin Transformer中采用的较为稀疏的注意机制是与数据无关的，这可能会限制对于长距离关系的建模能力。
复制链接

扫一扫