1 引言
该论文主要是关于目标检测中的标签分配问题,作者创新性地从全局的角度重新审视了该问题,并提出将标签分配问题看成是一个最优运输问题。要知道最优传输问题是当前最优化理论和GAN理论研究领域中的一个很火的研究课题。论文的实验效果俱佳,而且作者还提供了相应的源码。
论文:https://arxiv.org/abs/2103.14259v1
代码:https://github.com/Megvii-BaseDetection/OTA
2 论文动机
当前基于卷积神经网络的目标检测器是通过预测一组预定义锚点的分类标签进行目标检测。经典的分配策略可以归结为两种:静态分配策略和动态分配策略。
静态分配策略通常采用预定义的规则来分配每个锚点所处的目标对象或背景,这种静态策略会存在一个问题,它会导致对于具有不同大小、形状或遮挡条件的目标对象的锚点划分边界会有所不同。
动态分配策略中每个锚点的预测置信度是一个动态分配的指标,高置信度的锚点可以容易地被网络学习,从而被分配给相关的目标对象,但是动态分配策略依然会有因为不能利用全局信息而会导致锚点分配模糊的问题。
一个更好的分配策略应该是摆脱传统的为每一个目标对象单独寻求最优分配的做法,由此启发,作者转向全局最优的思想,并将最优传输理论应用到目标检测中的标签分类问题中,目的是为图像中的所有目标找到全局高置信度分配方式。作者首先将目标检测的标签分配问题表述为一个最优运输问题,然后将求解最优传输问题转化为求解最优运输方案,进而可以利用现成的Sinkhorn-Knopp迭代快速高效地求解。
3 论文模型
3.1 最优传输理论介绍
最优传输理论可以被描述为如下供需关系的形式:假定在一个区域内有 个供应商和 个需求方。第 个供应商有 个单元的货物,第 个需求方需要 单元的货物。从供应商 到需求者 的单位货物的运输成本为 。最优传输问题的目标是找到一个最优传输方案使得供应商的所有货物可以以最低的运输成本运输给需求方:,
以上问题是一个可以在多项式时间内求解的线性规划问题。在目标检测中,这个线性规划问题的规模很大,作者通过采用Sinkhorn-Knopp快速迭代法求解这个线性规划问题。
3.2 最优传输和Sinkhorn迭代
将3.1中的线性规划问题转换为如下的增加熵的正则化项的凸非线性形式:
其中 。 是控制正则化项强度的超参数。根据拉格朗日数乘法,则有如下形式:
其中 和