MS-DETR:不用引入额外Decoder分支的one-to-many方法

代码地址
论文地址

摘要

MS-DETR这篇论文还是用于解决DETR中一对一匹配带来的训练效率低的问题,具体可以去看前面我对H-DETR的介绍。相比于先前的工作,如H-DETR,Group-DETR,这篇论文提出的方法最大的区别就是没有引入额外的decoder分支,从而大大降低了资源消耗。MS-DETR使用一个类似于预测头的模块用于一对多监督,具体方法下面介绍。下面是MS-DETR的效果图:

在这里插入图片描述
从上到下分别是gt,top20queries来自baseline(应该是deformable detr),top20queries来自ms-detr,可以看到整体的候选框效果都变好了。

MS-DETR

关于DETR的架构,大家可以去看原论文,这里就不展开讲了,主要还是讲MS-DETR中提到的新方法。
在这里插入图片描述
如图所示是目前一对多监督的多种思路。a是原始的一对一监督,b就是论文提到的MS-DETR,c是Group-DETR,DN-DETR等方法使用的,d是H-DETR方法使用的。可以看到MS-DETR仍然是在原来的decorder基础上进行的,这也是它与后面两者最大的区别之一。具体实现是怎样的呢?下面具体讲解

一对一监督

一对一监督就是原始的DETR使用的方法,公式如下: B = box 11 ( Q ~ ) , S = cls 11 ( Q ~ ) \mathbf{B}=\text{box}_{11}(\tilde{\mathbf{Q}}),\quad\mathbf{S}=\text{cls}_{11}(\tilde{\mathbf{Q}}) B=box11(Q~),S=cls11(Q~)这里只展示经过decoder layer后的步骤,其中 Q ~ \tilde{\mathbf{Q}} Q~是经过decoder layer后的结果,经过两个预测头得到得分与回归框结果,11表示一对一,后面的1m表示一对多。
关于一对一的损失函数,公式如下 L 11 = ∑ n = 1 N ( ℓ c 11 ( s σ ( n ) , s ˉ n ) + ℓ b 11 ( b σ ( n ) , b ˉ n ) ) \mathcal{L}_{11}=\sum_{n=1}^N(\ell_{c11}(s_{\sigma(n)},\bar{s}_n)+\ell_{b11}(\mathbf{b}_{\sigma(n)},\bar{\mathbf{b}}_n)) L11=n=1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值