Deformable Attention Module

Deformable Attention Module 结合DCN和自注意力,通过确定参考点、计算偏移量和注意力权重矩阵,实现输入特征图附近点的高效采样。在Encoder中,参考点基于位置编码的特征图生成;Decoder中,通过object queries直接获取。偏移量通过线性层计算,注意力权重矩阵由线性层和softmax得到。
摘要由CSDN通过智能技术生成

介绍

Deformable Attention Module主要思想是结合了DCN和自注意力,目的是为了在输入特征图上的参考点(reference point)的附近只采样少数点(deformable detr设置为3个点)来作为注意力的key 。主要包含步骤:
(1)确定reference point。
(2)确定每个reference point的偏移量(offset)。
(3)确定注意力权重矩阵A_{mqk}

1. 确定reference point

在Encoder和Decoder中实现方法不太一样,接下来详细叙述。

Encoder部分,输入的Query Feature {z_{q}} 为加入了位置编码的特征图(x+position), value (x)的计算方法只使用了 x 而没有位置编码(value_proj函数)。
(1) reference point的计算调用的函数get_reference_points,里面用了torch.meshgrid,以及torch.stack方法,堆叠生成2D参考网格。有一个细节就是参考点归一化到0和1之间,因此取值的时候要用到双线性插值方法。
而在Decoder中,参考点的获取方法为object queries,直接通过一个nn.Linear得到每个对应的refere

  • 7
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值