Deformable Attention Module

VV1805

已于 2023-12-29 14:44:57 修改

阅读量469

点赞数 7

分类专栏：深度学习算法 BEVFormer 文章标签： pytorch 深度学习人工智能

于 2023-12-28 17:38:36 首次发布

本文链接：https://blog.csdn.net/qq_22790615/article/details/135274467

版权

Deformable Attention Module 结合DCN和自注意力，通过确定参考点、计算偏移量和注意力权重矩阵，实现输入特征图附近点的高效采样。在Encoder中，参考点基于位置编码的特征图生成；Decoder中，通过object queries直接获取。偏移量通过线性层计算，注意力权重矩阵由线性层和softmax得到。

摘要由CSDN通过智能技术生成

介绍

Deformable Attention Module主要思想是结合了DCN和自注意力，目的是为了在输入特征图上的参考点(reference point)的附近只采样少数点(deformable detr设置为3个点)来作为注意力的key 。主要包含步骤：
（1）确定reference point。
（2）确定每个reference point的偏移量(offset)。
（3）确定注意力权重矩阵 $A_{mqk}$ 。

1. 确定reference point

在Encoder和Decoder中实现方法不太一样，接下来详细叙述。

在Encoder部分，输入的Query Feature ${z_{q}}$ 为加入了位置编码的特征图(x+position)， value (x)的计算方法只使用了 x 而没有位置编码(value_proj函数)。
(1) reference point的计算调用的函数get_reference_points，里面用了torch.meshgrid，以及torch.stack方法，堆叠生成2D参考网格。有一个细节就是参考点归一化到0和1之间，因此取值的时候要用到双线性插值方法。
而在Decoder中，参考点的获取方法为object queries，直接通过一个nn.Linear得到每个对应的refere