目录
论文链接:https://arxiv.org/abs/2010.04159
文章侧重点
- 改进DERT中存在两个问题:
- 收敛速度很慢的问题,究其原因是因为object query从零学起,且当前注意力机制对特征的计算是全局式逐像素计算,耗时。
- DERT对小目标的检测性能不佳,因为通常小目标的检出需要高分辨率的特征图,但是DERT因为性能权衡,只用单一尺度检测。
- Deformable DERT借鉴Deformable Convolution的稀疏采样思想,将其扩展到Transformer中,并进行多尺度的检测。相比之下,Deformable Convolution是在单一尺度下找到一个关键点,而Deformable DERT可以在多尺度下找到多个关键点。
- Deformable DERT认为在特征图中包含目标相关的分布稀疏,故利用稀疏采用一些目标关键点特征生成新的特征向量。
Deformable Attention Module.
如图为单尺度的Deformable Attention Module示意图
- 输入是Query Feature z q z_q zq、 预测目标中心位置的 p q p_q pq,目标特征