ACCV 2024 | ViT涨点神器！DeBiFormer：双层路由注意力新框架

最新推荐文章于 2025-05-27 14:14:42 发布

强化学习曾小健2

最新推荐文章于 2025-05-27 14:14:42 发布

阅读量967

点赞数 9

文章标签：人工智能 transformer

本文链接：https://blog.csdn.net/weixin_39756314/article/details/144937636

版权

ACCV 2024 | ViT涨点神器！DeBiFormer：双层路由注意力新框架

转载自：晓飞的算法工程笔记

论文: DeBiFormer: Vision Transformer with Deformable Agent Bi-level Routing Attention

论文地址：https://arxiv.org/abs/2410.08582
论文代码：https://github.com/maclong01/DeBiFormer

创新点

提出了可变形双层路由注意力（DBRA），一种用于视觉识别的注意力内注意力架构，利用代理查询优化键值对的选择并增强注意力图中查询的可解释性。
提出了一种新型主干网络DeBiFormer，基于注意力热图的可视化结果具有更强的识别能力。
在ImageNet、ADE20K和COCO上进行的大量实验表明，DeBiFormer始终优于其他基线。

内容概述

为了改善注意力，许多研究提出了精心设计的高效注意力模式，其中每个查询仅选择一小部分键值对进行关注。然而，尽管有不同的合并或选择键和值标记的策略，这些标记对于查询而言并不具有语义性。在将预训练的ViT和DETR应用于其它下游任务时，查询并不是来自语义区域的键值对。因此，强迫所有查询集中在不充足的标记集合上可能不会产生最佳结果。

最近，随着动态查询感知的稀疏注意力机制的出现，查询聚焦于动态语义最强的键值对，即双层路由注意力。然而，在这种方法中，查询是由语义键值对处理的，而不是源自详细的区域，这在某些情况下可能无法产生最佳结果。此外，在计算注意力时，为所有查询选择的这些键和值受到过多无关查询的影响，导致对重要查询的关注减少，这在执行分割时会产生显著影响。

为了使查询的注意力更加高效，论文提出了可变形双层路由注意力（DBRA），这是一种用于视觉识别的注意力内注意力架构。

第一个问题是如何定位可变形点。为注意力附加一个偏移网络，该网络以查询特征为输入，生成所有参考点的相应偏移量。因此，候选的可变形点朝着重要区域移动，以高灵活性和高效率捕获更多信息特征。
第二个问题是如何从语义相关的键值对中聚合信息，然后将信息广播回查询。当选择用于可变形点的键值对时，专注于前k个路由区域，选择与区域仅需的语义最相关的部分键值对。在选择了语义相关的键值对后，对可变形点查询应用标记到标记的注意力，然后应用第二个标记到标记的注意力将信息广播回查询。在此过程中，作为键值对的可变形点用于表示语义区域中最重要的点。