FairMOT简述

引言

  多目标跟踪目的是估计视频中感兴趣的轨迹,目前跟踪都是利用两个模型:检测模型首先通过每帧中的包围盒定位感兴趣的对象,然后关联模型提取每个包围盒的重新识别(re-ID)特征,并根据特征上定义的某些度量将其链接到其中一个已有的轨迹。然而,这些方法不能进行实时推理,特别是当存在大量对象时,因为两个模型不共享特征,并且它们需要对视频中的每个边界框应用Re-ID模型。随着多任务学习的成熟,利用单一网络进行目标估计和重识别的one-shot跟踪器受到了越来越多的关注,《Mots: Multi-object tracking and segmentation》提议在Mask R-CNN上增加re-ID分支,使用ROI-Align获得提案的re-ID特征,不幸的是,与两步法相比,跟踪精度明显下降。特别是,ID开关的数量增加了很大的差额。结果表明,将这两项任务结合起来是一个不容忽视的问题,本文旨在深入了解失败背后的原因,并提出一个简单而有效的方法。具体来说,有三个因素被确定:
  (1)Unfairness Caused by Anchors
  现有的one-shot追踪器大多是基于anchor的。然而,我们在本研究中发现,基于锚的框架并不适合学习re-ID特征,尽管检测结果很好,但会导致大量的ID-switch。
  Overlooked re-ID task:Track R-CNN以级联的方式操作,它首先估计对象proposals框,然后从proposals中合并re-ID特征来估计相应的re-ID特征。值得注意的是,re-ID特性的质量在很大程度上取决于proposals的质量。因此,在训练阶段,模型严重偏向于估计准确的对象proposals,而不是高质量的再识别特征。总而言之,这种事实上的标准“检测第一,re-ID第二”框架使得re-ID网络没有被公平地学习。
  One anchor corresponds to multiple identities:基于anchor的方法通常使用ROI-Pool或ROI-Align从每个proposal中提取特征。大部分ROI-Align采样区域可能属于其他干扰实例或者背景,如图1所示。因此,所提取的特征在准确率和辨别地表示目标物体方面并不是最优的,相反,本文在这项工作中发现,只在估计的对象中心提取特征明显更好。
在这里插入图片描述
  Multiple anchors correspond to one identity:多个相邻锚点对应于不同的图像块,只要它们的IoU足够大,都可能被强制识别成相同的身份,这给训练培训带来了严重的歧义,参见图1进行说明。另一方面,当图像受到小扰动时,例如由于数据增强,同一锚点可能被迫识别成不同的身份。此外,在目标检测中,特征图通常8/16/32倍下采样来平衡精度和速度。这对于目标检测来说是可以接受的,但是对于学习re-ID特征来说太粗糙了,因为在粗糙锚点提取的特征可能不会与目标中心对齐。
  (2) Unfairness Caused by Features
  对于one-shot追踪器,大多数特性在目标检测和re-ID任务之间共享。 但众所周知,它们实际上需要来自不同层的特征才能达到最佳效果。 特别是,目标检测需要深度和抽象的特征来估计对象类和位置,但re-ID更多地关注低级外观特征来区分同一类的不同实例。多层特征融合是解决这一矛盾的有效方法,它允许两个任务(网络分支)从多层融合的特征中提取它们需要的任何特征。如果不进行多层融合,模型会偏向于主检测分支,产生低质量的re-ID特征。此外,多层融合技术通过融合不同接受域层的特征,提高了处理目标尺度变化的能力。
  (3)Unfairness Caused by Feature Dimensio
以前的re-ID工作通常学习非常高维的特征,并在其领域的基准上取得了有希望的结果。 然而,本文发现学习低维特征实际上更适合于one-shot MOT,原因有三:
  (1)虽然学习高维ReID特征可能会稍微提高它们区分对象的能力,但由于这两个任务的竞争,它显著地损害了目标检测的准确性,这反过来也对最终的跟踪精度产生了负面影响。因此,考虑到目标检测中的特征维度通常很低,本文建议学习低维re-ID特征来平衡这两个任务;
  (2)当训练数据较小时,学习低维re-ID特征降低了过拟合的风险。 MOT中的数据集通常比re-ID中的数据集小得多。因此,它有利于降低特征维数;
  (3)学习低维re-ID特征提高了推理速度。
  FairMot网络结构如图2所示:
在这里插入图片描述

相关工作

  这里主要回顾深度学习方法和非深度学习方法两个方面。
  非深度学习方法
  大多数在线方法都假定对象检测是可行的,并将重点放在数据关联步骤上。例如,SORT首先使用卡尔曼滤波器来预测未来的物体位置,计算它们与未来帧中检测到的物体的重合度,最后采用匈牙利算法来做跟踪。IOU-Tracker(《High-speed tracking-by-detection without using image information》)直接通过它们的空间重合度而未使用卡尔曼滤波关联相邻帧的检测并达到了100k fps的推理速度。由于简单性,SORT和IOU-Tracker被广泛用于实践。但是在具有挑战性的场景如拥挤场景和快速相机运动的场景会失败,因为它们缺乏re-ID特征。《Robust online multi-object tracking based on tracklet confidence and online discriminative appearance learning》提供了线性判别分析来为物体提取re-ID特征,达到了鲁棒的跟踪结果。《Learning to track: Online multi-object tracking by decision making》将在线MOT制定为马尔科夫决策过程,并利用在线单一目标跟踪和强化学习来决定轨迹的出现/消失。
  深度学习方法
  深度学习的快速发展促使研究人员探索现代目标检测器,一些最好的方法(《Simple online and realtime tracking with a deep association metric》、《Poi: Multiple object tracking with high performance detection and appearance feature》、《Multi-target tracking using cnn-based features: Cnnmtt》、《Online multi-target tracking with tensor-based high-order graph matching》、《Recurrent autoregressive networks for online multi-object tracking》)将目标检测和re-ID作为两个分开的任务。首先使用基于CNN的目标检测器比如Faster R-CNN和YOLOv3来定位输入图片感兴趣的所有物体。然后在另一个步骤中,根据检测框来裁剪图片并把它们输入至一个身份嵌入网络来提取re-ID特征,用于随着时间推移来链接检测框。链接步骤通常遵循标准的做法,首先根据bbox的re-ID特征和交并比(IoU)计算代价矩阵,然后使用卡尔曼滤波和匈牙利算法来完成链接任务。两步方法的优点在于,它们可以针对每个任务分别使用最合适的模型,而不会做出折中。此外,他们可以根据检测到的边界框裁剪图像补丁,并在估计Re-ID特征之前将其调整为相同大小,这有助于处理目标的比例变化。但是,它们通常非常慢,因为这两个任务需要单独完成而没有共享。因此,很难实现许多应用中所需的视频速率推断。
  随着深度学习中多任务学习的成熟,one-shot MOT方法已开始引起更多研究关注,其核心思想是在单个网络中同时完成目标检测和身份嵌入(re-ID特征),以通过共享大部分计算来减少推理时间。例如,Track-RCNN 在Mask-RCNN的顶部添加了一个Re-ID头,并为每个proposal回归了边界框和一个re-ID特征。 JDE是在YOLOv3上构建的,该框架可实现接近视频速率的推断。但是,一阶段方法的跟踪精度通常低于两阶段方法的跟踪精度。
  本文工作也属于一阶段跟踪器,和之前的工作不同,本文深入研究了失败背后的原因并发现re-ID任务在三个方面与检测任务相比都是不公平的。基于此,本文提出FairMOT,在两个任务之间达到了较好的平衡。

方法

  Backbone Network
  采用ResNet-34作为骨干网络,并将《Objects as points》里增强过的DLA应用于骨干网络,与原来的DLA(《Deep layer aggregation》)不同,它在低层和高层特性之间有更多的跳跃连接,类似于特征金字塔网络(FPN),此外,上采样模块中的所有卷积层都由可变形的卷积层代替,以便它们可以根据物体的尺寸和姿势动态调整感受野。
  Detection Branch
  检测分支基于CenterNet,在DLA-34中附加了三个平行的头,分别用来估算heatmap、目标中心偏移和bbox尺寸。通过对DLA-34的输出特征图应用3×3卷积(具有256个通道)来实现每个head,然后通过1×1卷积层生成最终目标。
   Re-ID Branch
   Re-ID分支的目标是生成可以区分不同对象的特征。理想情况下,不同目标之间的距离应大于同一目标之间的距离。为了实现该目标,本文在主干特征之上应用了具有128个内核的卷积层,以提取每个位置的身份嵌入特征。
   Training FairMOT;
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
  加入以上三个损失后联合训练检测和re-ID分支,再使用在(《Multi-task learning using uncertainty to weigh losses for scene geometry and semantics》)中提出的不确定损失(uncertainty loss)来自动平衡检测和re-ID任务:
在这里插入图片描述
Online Inference
  与以前的工作JDE相同,网络以大小为1088×608的帧作为输入,在预测的热图之上,根据热图分数执行非最大抑制(NMS),以提取峰值关键点,保留热图分数大于阈值的关键点的位置,然后,根据估计的偏移量和框大小计算相应的包围框,本文还在估计的对象中心提取标识embedding。
  遵循标准的在线跟踪算法来关联框。首先根据第一帧中的估计框初始化一些轨迹,在随后的帧中,根据在Re-ID特征上计算的余弦距离将检测到的boxes与现有的轨迹进行链接。本文还使用卡尔曼滤波来预测当前帧中轨迹的位置,如果它离链接到的检测太远,将相应的成本设置为无穷大,这有效地防止检测目标移动过大,在每个时间步骤中更新跟踪器的外观特征,以处理外观变化。

实验

  作者通过组合6个公共数据集的训练图像来构建一个大的训练数据集,使用ETH和CityPerson数据集来训练detection分支,使用CalTech,MOT17,CUHK-SYSU以及PRW数据集来训练bounding box和identity annotations。由于在ETH中出现的一些视频同时在MOT16数据集中出现,为了公平起见,从ETH中将这些视频移除,在一些消融实验中,在较小的数据集上训练模型。测试集采用的是:2DMOT15,MOT16,MOT17以及最新发布的MOT20,评价指标用Average Precision(AP)评估detection性能;True Positive Rate(TPR)以错误接受率0.1评估Re-ID特征;CLEAR度量以及IDF1用于评估跟踪效率。
  首先比较了不同re-id的采样策略,如表1所示:
在这里插入图片描述
  然后对不同骨架在MOT17数据集验证集上的比较如表2所示:
在这里插入图片描述
  为了验证检测和re-ID任务之间是否存在特征冲突,本文引入了一个基线ResNet- 34-det,它只训练检测分支,比较结果如表3所示:
在这里插入图片描述
  不同骨架对不同尺度物体的影响比较如表4所示:

在这里插入图片描述
  re-ID特征维度的多种选择评估如表5所示:
在这里插入图片描述
  数据关联步骤中的三种成分,包括边界框IoU、re-ID特征和卡尔曼滤波的评估如表6所示:
在这里插入图片描述
  自我监督学习进行的预训练效果比较如表7所示:
在这里插入图片描述
  2DMOT15数据集上最先进的one-shot跟踪器的比较如表8所示:
在这里插入图片描述

  在MOT数据集上与state-of-the-art方法的比较如表9所示:
在这里插入图片描述

总结

  这篇论文是针对JDE的改进,如题目名,围绕re-ID和检测的公平上做文章,之前的论文都有点严重倾向于检测而忽略re-ID,作者认为这种不公平是是导致Id-switch的原因。一些SOTA的跟踪算法通常是two-step算法,他们将检测目标和Re-ID分成了两个任务:首先通过检测算法获取到物体的位置,再将预测的物体裁剪下来进行缩放传入身份特征提取器来获取Re-ID特征,连接框形成多条轨迹,但是two-step方法不会共享检测算法与Re-ID的特征图,所以其速度很慢,很难在视频速率下进行推理。然后one-shot虽然速度上去了,但精度不够,所以作者针对one-shot方法进行分析,提出三点:
  ①Anchor-Based 的检测器不适用JDE追踪模式;
  ②多层特征融合是非常有必要的;
  ③对于one-shot方法,Re-ID的特征向量采用低维度更好。
  于是作者使用了CenterNet作为检测模块,然后选择了改进的DLA网络进行特征提取,然后输出四个分支:heatmap、center offset、bbox size、Re-ID Embedding,网络结构很简洁。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值