End-to-End Object Detection with Transformers
论文地址:https://arxiv.org/pdf/2005.12872.pdf
前面部分比较好理解,CNN提取特征送入transformer,输出n个box prediction,n代表了模型可以检测出物体最大的数目,是人为设定的。其中box包括了(类别,坐标)
如何摆脱NMS这种后处理呢,就是应用了二分匹配的原理。让预测出来n个box匹配实际的K个box,此时的n和K可能是不对等的,这样在匹配时就限制了n个box中那些相似的(很多框都是一个物体)出现。比如,模型在物体A的位置预测出三个框,经过匹配后,只有一个框和实际的box对应。那么其余两个框就是错误的匹配,产生大的LOSS值。
这里的object queries是一个随机的向量!!
https://www.bilibili.com/video/BV1Qg4y1B7rL/?spm_id_from=333.788.recommend_more_video.0
这个视频讲的很好