FairMOT论文解读



A Simple Baseline for Multi-Object Tracking

FairMOT

FairMOT是华中科技大学和微软亚洲研究院,论文分析现存one-shot目标追踪算法的问题所在,提出了三个观点:

  1. anchors对于Re-ID并不友好,应该采用anchor-free算法。
  2. 多层特征的融合。
  3. 对于one-shot方法,Re-ID的特征向量采用低维度更好。

在MOT15、MOT16、MOT17、MOT20等数据集上以30fps的帧数达到了目前的SOTA水平。

FairMOT介绍

多目标跟踪(MOT)一直是计算机视觉的一个长期目标,目标是估计视频中多个目标的轨迹,该任务的成功解决将有利于许多应用,如动作识别、运动视频分析、老年护理和人机交互。
现存的SOTA方法当中大部分都是采用two-step方法两步走:

  1. 通过目标检测算法检测到目标。
  2. 再经过Re-ID模型进行匹配并根据特征上定义的特定度量将其链接到一个现有的轨迹。

尽管随着近年来目标检测算法与Re-ID的发展,two-step方法在目标跟踪上也有明显的性能提升,但是two-step方法不会共享检测算法与Re-ID的特征图,所以其速度很慢,很难在视频速率下进行推理。
随着two-step方法的成熟,更多的研究人员开始研究同时检测目标和学习Re-ID特征的one-shot算法,当特征图在目标检测与Re-ID之间共享之后,可以大大的减少推理时间,但在精度上就会比two-step方法低很多。所以作者针对one-shot方法进行分析,提出了上述三个方面的因素。

Two-step方法

一些SOTA的跟踪算法通常是two-step算法,他们将检测目标和Re-ID分成了两个任务:

  1. 首先通过检测算法获取到物体的位置(预测框)。
  2. 将预测的物体裁剪下来进行缩放传入身份特征提取器来获取Re-ID特征,连接框形成多条轨迹。

连接框形成轨迹的标准做法就是:根据Re-ID特征和框的IOU来计算一个代价矩阵,再利用卡尔曼滤波和匈牙利算法实现连接轨迹的任务。有一小部分研究使用了更复杂的关联策略,如群体模型和RNNs。

two-step方法的好处就是,可以在两个任务当中分别使用合适的模型,并且可以将预测的框进行裁剪和缩放传入Re-ID特征提取器当中,有助于处理对象比例变化。并且跟踪效果也很好,但是速度很慢,难以以视频速率进行推理。

One-shot方法

One-shot方法核心思想是在一个网络中同时完成目标检测和身份嵌入(Re-ID feature),通过共享大部分计算量来减少推理时间。

  • Track-RCNN通过添加一个Re-ID head的部分为每个候选区域来回归框和Re-ID的部分。
  • JDE则是实现在YOLOV3框架的基础上并实现了视频速率的推理。

然而,单步one-shot方法的跟踪精度往往低于two-step跟踪方法。论文发现这是因为学习的ReID特性不是最优的,这导致了大量的ID切换。

The Technical Approach

在这里插入图片描述

backbone

作者发现使用ResNet-34结构作为骨干网络能够很好的兼容精度和速度,通在骨干网络上添加Deep Layer Aggregation (DLA)结构来实现不同尺度的检测,与原本的DLA不同的是在低层和高层之间添加了更多的连接(与FPN相似),另外在上采样的时候采用的是可形变卷积,可以根据目标的尺度和姿势动态的适应感受野,这个改进也有助于缓解对齐问题。最终的模型为DLA-34,下采样stride=4。
DLA-34:

  • ResNet-34
  • 改进的DLA
  • 可变形卷积(上采样采用)
  • 6
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值