DETR

End-to-End Object Detection with Transformers
论文地址:https://arxiv.org/pdf/2005.12872.pdf
在这里插入图片描述
前面部分比较好理解,CNN提取特征送入transformer,输出n个box prediction,n代表了模型可以检测出物体最大的数目,是人为设定的。其中box包括了(类别,坐标)
在这里插入图片描述
如何摆脱NMS这种后处理呢,就是应用了二分匹配的原理。让预测出来n个box匹配实际的K个box,此时的n和K可能是不对等的,这样在匹配时就限制了n个box中那些相似的(很多框都是一个物体)出现。比如,模型在物体A的位置预测出三个框,经过匹配后,只有一个框和实际的box对应。那么其余两个框就是错误的匹配,产生大的LOSS值。

在这里插入图片描述

这里的object queries是一个随机的向量!!

https://www.bilibili.com/video/BV1Qg4y1B7rL/?spm_id_from=333.788.recommend_more_video.0
这个视频讲的很好

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值