论文地址:https://arxiv.org/abs/2108.06152
源码地址:https://github.com/Atten4Vis/ConditionalDETR
Conditional DETR for Fast Training Convergence
1. Abstract
原始的DETR采用Transformer中的Encoder和Decoder结构进行目标检测,获得了可观的结果。在这篇论文中,为了解决DETR的训练速度慢的问题,引入一个conditional cross-attention机制来实现更快的DETR训练。原始的DETR中的coss-ateention module中方极大的依赖于content embeddings来实现4个角点的预测,增加对高质量的content embeddings的需求,并且每个object query的co-attended visual regions可能与查询需要预测的边界框无关。因此,从decoder embeddings中学习一个conditional spatial query,每个cross-head都能够关注一个包含不同区域的visual regions。不需要再浪费太多时间去寻找合适的attnetion regions,加快DETR的训练。实验结果表明,在使用Res-50/101为为backbone时,Conditional DETR相比DETR训练速度快6.7倍;而对于使用DC5-R50/101,会快10倍。
2. Introduction & Related Work
这个部分我只挑主要的来说明,关于相关工作,说来说去都是那些东西,就不过多去提及了。
- 对比两种DETR的