FairMOT这个题目很好,直接抓住了论文的中心思想。读一读摘要,论文将行文的重点放在了将目标检测任务和重识别任务视为同等重要的任务上,通过这一点入手展开来谈archor-free的重要性、特征融合、Re-ID相关。
摘要
多目标跟踪(MOT)是计算机视觉中的一个重要问题,具有广泛的应用前景。MOT定义为在单一网络中进行目标检测和重新识别的多任务学习,可以实现两项任务的联合优化,具有较高的计算效率。然而,我们发现这两个任务往往是相互竞争的,需要小心处理。特别是以往的工作通常将re-ID作为次要任务,其准确性受到(被认为是)主要的检测任务的严重影响。结果网络偏向于主要的检测任务,而不是公平的重新标识任务。为了解决这一问题,我们提出了一种基于无锚点目标检测体系结构CenterNet的简单而有效的方法FairMOT。注意,它不是CenterNet和re-ID的简单组合。相反,我们提出了一些详细的设计,这对通过彻底的实证研究,实现良好的跟踪结果至关重要。该方法具有较高的检测和跟踪精度。在一些公共数据集上,该方法的性能大大超过了最先进的方法。
观点
该工作提出三个重要观点:
1.anchors对于Re-ID并不友好,应该采用anchor-free算法。
2.多层特征的融合。
3.对于one-shot方法,Re-ID的特征向量采用低维度更好。
overview图解
可以看到FairMOT的基本构型是One-Shot,下面会简单介绍下one-shot和two-step方法。
overview中展示输入图像首先喂入一个卷积网络中,目的是提取高分辨率的特征图。后面添加两个均匀(homogeneous, 均匀的,这里又点了下题)分支用于目标检测和提取重识别特征。预测对象中心的特征用于跟踪。
Two-step方法
一些SOTA的跟踪算法通常是two-step算法,他们将检测目标和Re-ID分成了两个任务:
1.首先通过检测算法获取到物体的位置(预测框)。
2.将预测的物体裁剪下来进行缩放传入身份特征提取器来获取Re-ID特征,连接框形成多条轨迹。
连接框形成轨迹的标准做法就是:根据Re-ID特征和框的IOU来计算一个代价矩阵,再利用卡尔曼滤波和匈牙利算法实现连接轨迹的任务。有一小部分研究使用了更复杂的关联策略,如群体模型和RNNs。
two-step方法的好处就是,可以在两个任务当中分别使用合适的模型,并且可以将预测的框进行裁剪和缩放传入Re-ID特征提取器当中,有助于处理对象比例变化。并且跟踪效果也很好,但是速度很慢,难以以视频速率进行推理。
匈牙利算法详解:多目标跟踪中的匈牙利算法简介
One-shot方法
One-shot方法核心思想是在一个网络中同时完成目标检测和身份嵌入(Re-ID feature),通过共享大部分计算量来减少推理时间。
1.Track-RCNN通过添加一个Re-ID head的部分为每个候选区域来回归框和Re-ID的部分。
2.JDE则是实现在YOLOV3框架的基础上并实现了视频速率的推理。
然而,单步one-shot方法的跟踪精度往往低于two-step跟踪方法。论文发现这是因为学习的ReID特性不是最优的,这导致了大量的ID切换。
Highlight图解
还记得上面说过FairMOT的论述点落在两个任务的平衡上,Fig2即为论文的Highlight,详细解释了这样做的必要性。
(a)Track R-CNN将检测作为首要任务,re-ID作为次要任务。Track R-CNN和JDE都是archor-base的。红色方框表示positive archors,绿色方框表示目标archors。三种方法提取的re-ID特征不同。Track R-CNN使用ROI-Align为所有阳性archors提取re-ID特征。JDE提取所有阳性archor中心的re-ID特征。FairMOT在目标中心提取re-ID特征。
(b)红色archors包含两个不同的实例。因此,它将被迫预测两个相互冲突的类别。
(c)三个不同的锚和不同的图像patch是预测同一身份。
(d) FairMOT只在对象中心提取re-ID特征,可以缓解(b)和(c)中的问题。
Fig3的可视化再次证明了以上观点
关于运行时间
这也是很重要的一点,因为一般决定使用One-Shot的目的都是为了尽可能的利用较短的运行时间,该文给出了每个组件的运行时间随着目标物体的数量增加而变化的曲线。
下面也会提得到,FairMOT是以30FPS实时运行的。
试验结果
与同样的One-Shot方法相比
与Two-Step方法相比