1 前言
该论文主要是关于目标检测中的标签分配问题,作者创新性地从全局的角度重新审视了该问题,并提出将标签分配问题看成是一个最优运输问题。要知道最优传输问题是当前最优化理论和GAN理论研究领域中的一个很火的研究课题。论文的实验效果俱佳,而且作者还提供了相应的源码。
论文链接:https://arxiv.org/abs/2103.14259v1
2 核心思想
在该论文中作者首先将目标检测的标签分配问题表述为一个最优运输问题,然后将求解最优传输问题转化为求解最优运输方案,进而可以利用现成的Sinkhorn-Knopp迭代快速高效地求解。
3 论文模型
3.1 最优传输理论介绍
最优传输理论可以被描述为如下供需关系的形式:假定在一个区域内有
m
m
m个供应商和
n
n
n个需求方。第
i
i
i个供应商有
s
i
s_i
si个单元的货物,第
j
j
j个需求方需要
d
j
d_j
dj单元的货物。从供应商
i
i
i到需求者
j
j
j的单位货物的运输成本为
c
i
j
c_{ij}
cij。最优传输问题的目标是找到一个最优传输方案使得供应商的所有货物可以以最低的运输成本运输给需求方:
π
∗
=
{
π
i
,
j
∣
i
=
1
,
⋯
,
m
,
j
=
1
,
⋯
,
n
}
\pi^{*}=\{\pi_{i,j}|i=1,\cdots,m,j=1,\cdots,n\}
π∗={πi,j∣i=1,⋯,m,j=1,⋯,n},
min
π
∑
i
=
1
m
∑
j
=
1
n
c
i
j
π
i
j
.
s
.
t
.
∑
i
=
1
m
π
i
j
=
d
j
,
∑
j
=
1
n
π
i
j
=
s
i
,
∑
i
=
1
m
s
i
=
∑
j
=
1
n
d
j
,
π
i
j
≥
0
,
i
=
1
,
⋯
,
m
,
j
=
1
,
⋯
,
n
.
\begin{array}{ll}\min\limits_{\pi} & \sum\limits_{i=1}^{m}\sum\limits_{j=1}^{n}c_{ij}\pi_{ij}.\\\mathrm{s.t.} & \sum\limits_{i=1}^{m}\pi_{ij}=d_j, \quad \sum\limits_{j=1}^{n}\pi_{ij}=s_i,\\&\sum\limits_{i=1}^{m}s_i=\sum\limits_{j=1}^{n}d_j,\\&\pi_{ij}\geq0,i=1,\cdots,m,j=1,\cdots,n.\end{array}
πmins.t.i=1∑mj=1∑ncijπij.i=1∑mπij=dj,j=1∑nπij=si,i=1∑msi=j=1∑ndj,πij≥0,i=1,⋯,m,j=1,⋯,n.以上问题是一个可以在多项式时间内求解的线性规划问题。在目标检测中,这个线性规划问题的规模很大,作者通过采用Sinkhorn-Knopp快速迭代法求解这个线性规划问题。
3.2 最优传输和Sinkhorn迭代
将3.1中的线性规划问题转换为如下的增加熵的正则化项的凸非线性形式: min π ∑ i = 1 m ∑ j = 1 n c i j π i j + γ E ( π i j ) \min\limits_{\pi}\quad\sum\limits_{i=1}^m\sum\limits_{j=1}^{n}c_{ij}\pi_{ij}+\gamma\mathbb{E}(\pi_{ij}) πmini=1∑mj=1∑ncijπij+γE(πij)其中 E ( π i j ) = π i j ( log π i j − 1 ) \mathbb{E}(\pi_{ij})=\pi_{ij}(\log \pi_{ij}-1) E(πij)=πij(logπij−1)。 γ \gamma γ是控制正则化项强度的超参数。根据拉格朗日数乘法,则有如下形式: min π ∑ i = 1 m ∑ j = 1 n c i j π i j + γ E ( π i j ) + α j ( ∑ i = 1 m π i j − d j ) + β i ( ∑ j = 1 n π i j − s i ) , \min\limits_{\pi}\quad\sum\limits_{i=1}^m\sum\limits_{j=1}^{n}c_{ij}\pi_{ij}+\gamma\mathbb{E}(\pi_{ij})+\alpha_j(\sum\limits_{i=1}^m\pi_{ij}-d_j)+\beta_i(\sum\limits_{j=1}^{n}\pi_{ij}-s_i), πmini=1∑mj=1∑ncijπij+γE(πij)+αj(i=1∑mπij−dj)+βi(j=1∑nπij−si),其中 α j ( j = 1 , ⋯ , n ) \alpha_j(j=1,\cdots,n) αj(j=1,⋯,n)和 β i ( i = 1 , ⋯ , m ) \beta_i(i=1,\cdots,m) βi(i=1,⋯,m)是拉格朗日乘子。通过使优化目标的导数等于0,最优方案 π ∗ \pi^{*} π∗被求解为: π i j ∗ = exp ( − α j γ ) exp ( − c i j γ ) exp ( − β i γ ) . \pi_{ij}^{*}=\exp(-\frac{\alpha_j}{\gamma})\exp(-\frac{c_{ij}}{\gamma})\exp(-\frac{\beta_i}{\gamma}). πij∗=exp(−γαj)exp(−γcij)exp(−γβi).令 u j = exp ( − α j γ ) u_j=\exp(-\frac{\alpha_j}{\gamma}) uj=exp(−γαj), v i = exp ( − β j γ ) v_i=\exp(-\frac{\beta_j}{\gamma}) vi=exp(−γβj), M i j = exp ( − c i j γ ) M_{ij}=\exp(-\frac{c_{ij}}{\gamma}) Mij=exp(−γcij),则有如下约束条件: ∑ i π i j = u j ( ∑ i M i j v j ) = d j , ∑ j π i j = ( u j ∑ i M i j ) v j = s i . \begin{array}{l}\sum\limits_{i}\pi_{ij}=u_j(\sum\limits_{i}M_{ij}v_j)=d_j,\\ \sum\limits_{j}\pi_{ij}=(u_j\sum\limits_{i}M_{ij})v_j=s_i.\end{array} i∑πij=uj(i∑Mijvj)=dj,j∑πij=(uji∑Mij)vj=si.以上两个等式可以被同时满足,通过迭代如下公式求解 v i v_i vi和 u j u_j uj: u j t + 1 = d j ∑ i M i j v i t , v i t + 1 = s i ∑ j M i j u j t + 1 u^{t+1}_j=\frac{d_j}{\sum\limits_{i}M_{ij}v^{t}_i},\quad v^{t+1}_{i}=\frac{s_i}{\sum\limits_{j}M_{ij}u^{t+1}_j} ujt+1=i∑Mijvitdj,vit+1=j∑Mijujt+1si以上的迭代公式即为Sinkhorn-Knopp迭代。迭代 T T T次之后,即可得到近似最优方案 π ∗ \pi^{*} π∗: π ∗ = d i a g ( v ) ⋅ M ⋅ d i a g ( u ) \pi^{*}=diag(v)\cdot M \cdot diag(u) π∗=diag(v)⋅M⋅diag(u)其中 γ \gamma γ和 T T T在实际中被设置为 0.1 0.1 0.1和 50 50 50。
3.3 最优传输理论中的标签分配
在目标检测中,假定有
m
m
m个
g
t
gt
gt目标和
n
n
n个锚框。给定一张图片
I
I
I,将每个
g
t
gt
gt看作是一个有正标签的
k
k
k个单元的供应者(
s
i
=
k
,
i
=
1
,
⋯
,
m
s_i=k,i=1,\cdots,m
si=k,i=1,⋯,m),将每个锚框看成是一个需要一个标签单元的需求者(
d
j
=
1
,
j
=
1
,
⋯
,
n
d_j=1,j=1,\cdots,n
dj=1,j=1,⋯,n)。从供应者
g
t
i
gt_i
gti到需求者
a
j
a_j
aj的一个正标签单元的最优传输损失
c
f
g
c^{fg}
cfg被定义为
c
i
j
f
g
=
L
c
l
s
(
P
j
c
l
s
(
θ
)
,
G
i
c
l
s
)
+
α
L
r
e
g
(
P
j
b
o
x
(
θ
)
,
G
i
b
o
x
)
,
c_{ij}^{fg}=L_{cls}(P^{cls}_{j}(\theta),G^{cls}_{i})+\alpha L_{reg}(P^{box}_{j}(\theta),G^{box}_i),
cijfg=Lcls(Pjcls(θ),Gicls)+αLreg(Pjbox(θ),Gibox),其中
θ
\theta
θ是模型的参数。
P
j
c
l
s
P^{cls}_j
Pjcls和
P
j
b
o
x
P^{box}_j
Pjbox表示的是
a
j
a_j
aj的预测
c
l
s
cls
cls分数和检测框。
G
i
c
l
s
G_i^{cls}
Gicls和
G
i
b
o
x
G^{box}_i
Gibox表示的是
g
t
i
gt_i
gti真实类别和bbox。
L
c
l
s
L_{cls}
Lcls和
L
r
e
g
L_{reg}
Lreg表示的是交叉熵和
I
O
U
\mathrm{IOU}
IOU损失。
α
\alpha
α是平衡系数。
在训练过程中,除了正标签分配之外,大量的锚框被视为负样本。由于最优传输方案涉及所有锚框,作者引入另一个供应商(即背景),它只提供负面标签。在一个标准的最优传输问题中,总供给必须等于总需求。因此作者将背景可以提供的负标签数量设置为
n
−
m
×
k
n-m\times k
n−m×k。将一个单位的负标签从背景运输到
a
j
a_j
aj的成本被定义为:
c
j
b
g
=
L
c
l
s
(
P
j
c
l
s
(
θ
)
,
∅
)
c_j^{bg}=L_{cls}(P^{cls}_j(\theta),\varnothing)
cjbg=Lcls(Pjcls(θ),∅)
其中,
∅
\varnothing
∅表示的背景类。可以得到代价矩阵
c
∈
R
(
m
+
1
)
×
n
c\in \mathbb{R}^{(m+1)\times n}
c∈R(m+1)×n。供给向量
s
s
s可以被相应的更新为:
s
i
=
{
k
,
i
f
i
≤
m
n
−
m
×
k
,
i
f
i
=
m
+
1.
s_i=\left\{\begin{array}{ll}k,& if \quad i \leq m\\n-m \times k, &if \quad i =m+1.\end{array}\right.
si={k,n−m×k,ifi≤mifi=m+1.有了代价矩阵
c
c
c,成本向量
s
∈
R
m
+
1
s\in \mathbb{R}^{m+1}
s∈Rm+1,和需求向量
d
∈
R
n
d\in \mathbb{R}^n
d∈Rn,最优传输方案
π
∗
∈
R
(
m
+
1
)
\pi^{*}\in \mathbb{R}^{(m+1)}
π∗∈R(m+1)可以通过Sinkhorn-Knopp迭代求解而得。得到
π
∗
\pi^{*}
π∗之后,可以通过将每个锚点分配给向其输送最大量标签的供应商来相应的进行标签分配。
3.4 方法改进
中心先验
理论上,OTA可以将 g t s gts gts盒子区域内的任何锚点指定为正样本;对于像COCO这样的一般检测数据集,作者发现中心先验有利于OTA的训练。强制检测器聚焦在潜在的阳性区域(即中心区域)可以帮助稳定训练过程,尤其是在训练的早期阶段,这将导致更好的最终表现。因此,作者在成本矩阵之前加上一个中心。对于每个 g t gt gt,作者根据锚和 g t s gts gts之间的中心距离,从每个FPN水平选择最接近的2个锚。
动态 k k k估计
一般情况下,每个
g
t
gt
gt的正锚的数量适当。基于许多因素,如对象的大小、比例和遮挡条件等。由于很难直接建立从这些因素到正锚点数量的映射函数模型,作者提出了一种简单但有效的方法,根据预测边界框和锚点之间的IoU值,粗略估计每个锚点的正锚点数量。对于每个
g
t
gt
gt,作者根据IoU值选择前
q
q
q个预测。这些IoU值相加,代表估计正锚数。作者称这种方法为动态
k
k
k估计。
如下图所示为最优传输分配的示意图,代价矩阵由每个锚-
g
t
gt
gt对之间的成对
c
l
s
cls
cls和
r
e
g
reg
reg损失组成。将寻找最优标签分配的目标转化为解决最优传输方案,然后通过Sinkhorn-Knopp迭代以最小的运输成本将标签从供应商运输到需求方。
最优传输分配算法(OTA)如下所示:
4 实验结果
作者在MS COCO 2017数据集上进行了广泛的实验,该实验分别包含大约118k、5k和20k的训练、验证和测试开发集图像。对于消融研究,作者在训练组上训练检测器,并在验证组上报告性能。与其他方法的比较是在测试开发集上进行的。作者还在CrowdHuman验证集上将OTA与其他方法进行了比较,以展示OTA在人群场景中的优势。
4.1 消融研究和分析
单个组件的效果:如下表所示,当不采用辅助分支时,OTA的表现优于FCOS 0.9%。在将IoU分支添加到两者后,这一差距几乎保持不变。动态
k
k
k将AP推向新的最先进的40.7%。可以发现OTA可以应用于锚和无锚探测器,在所有特征地图上每个位置只有一个正方形锚点。OTA-FCOS和OTA-RetinaNet的峰值完全相同,证明了OTA在锚基和无锚探测器上的适用性。
γ
\gamma
γ的影响:“中心先验”的半径
γ
\gamma
γ值用于控制每个
g
t
gt
gt的候选锚的数量。如下表所示,如果采用较小的
γ
\gamma
γ,只有靠近对象中心的锚可以被指定为阳性,这有助于优化过程集中在更有可能提供信息的区域。随着
γ
\gamma
γ的增加,候选数量也呈二次增加,导致优化过程中潜在的不稳定性。
模糊锚点处理:在不同
γ
\gamma
γ下相应性能。模糊锚的数量随着
γ
\gamma
γ从
3
3
3到
7
7
7的变化而大大增加。在PAA中,可以发现模糊锚的个数对
r
r
r不太敏感,但性能还是下降了0.8%。在OTA中,当多个
g
t
gt
gt倾向于将正标签传输到同一个锚时,OT算法将基于最小全局成本的原则自动解决它们的冲突。因此,OTA的模糊锚的数量仍然很低,并且随着
r
r
r从
3
3
3增加到
7
7
7几乎没有增加。
如下图所示,红色箭头和虚线椭圆突出显示不明确的区域。由于缺乏上下文和全局信息,A-TSS和PAA在这些区域的性能较差,导致检测性能次优。相反,OTA在这些区域分配的积极锚要少得多,这是一种理想的结果。
4.2 方法比较
如下表所示作者的方法优于所有其他方法。作者采用可变形卷积网络(DCN) ,这使模型的性能从47.0%提高到49.2%,最后通过多尺度测试技术,最佳模型可以达到了51.5%的平均效率
4.3 CrowdHuman数据集实验
如下表所示,RetinaNet和FCOS分别只实现了58.8%和55.0%的MR,远不如fast R-CNN这样的两级探测器,揭示了一级探测器在人群场景中的困境。从FreeAnchor开始,通过动态标签分配策略,一级检测器的性能逐渐得到改善。一个TSS达到49.5%的MR,和fast R-CNN(48.7% AP)的性能非常接近。该论文的OTA通过将全局信息引入标签分配向前迈出了一步,将MR提高到46.6%。OTA的AP和召回也以明显的优势超过了其他现有的一级探测器。