基于JDE的目标跟踪算法前沿研究跟进

一. FairMOT

这篇论文的立意是两部分,一个是类似于CenterTrack的基于CenterNet的联合检测和跟踪的框架,一个是类似于JDE,但是却又不同的,探讨了检测框架与ReID特征任务的集成问题。

作者称这类框架为one-shot MOT框架,论文一开始作者讨论了检测框架和ReID任务的关系。

作者的意思是anchor-based的检测框架中存在anchor和特征的不对齐问题,所以这方面不如anchor-free框架,emmm…指出的问题的确是对的,不过详细的讨论建议各位看看我之前对这个问题的详细讨论[3] [4]。作者因为这个问题而选择了anchor-free算法——CenterNet,不过其用法并不是类似于CenterTrack[2]中采取的类似于D&T的孪生联合方式,而是采用的Tracktor++的方式。

二.CSTrack(解决虚假背景问题)

就像之前 FairMOT 分析的那样,检测和 ReID 模型是存在不公平的过度竞争的,这种竞争制约了两个任务(检测任务和 ReID 任务 )的表示学习,导致 了学习的混淆。具体而言,检测任务需要的是同类的不同目标拥有相似的语义信息(类间距离最大),而 ReID 要求的是同类目标有不同的语义信息(类内距离最大)。此外,目标较大的尺度变化依然是 MOT 的痛点。在 ReID 中图像被调整到统一的固定尺寸来进行查询 ,而在 MOT 中,提供在 ReID 网络的特征需要拥有尺度感知能力,这是因为沿着帧目标可能会有巨大的 size 变化。

总结

在 MOT16 和 MOT17 上实验结果如下图,比较的方法都比较新,MOTA 也是刷到了 70 以上,不过速度稍许有点慢了,总的精度还是很不错的。
在这里插入图片描述

CSTrack 在 JDE 的基础上使用了更强的检测器也对 ReID 特征进行了优化,获得了相当不错的表现。不过,从结果上看这种暴力解耦还是会对整个跟踪的速度有影响的。

三. CStrackV2

总结

这篇论文将重点放在了MOT的检测质量方面,设计了一个非常优雅的运动模型将历史轨迹的信息转换到当前帧上来补充检测器没能准确检测的目标,使得整个轨迹更加平滑连续,在CSTrack的基础上有了比较大的突破,是很值得关注的一个方法。

思路还是检测器和跟踪器结果的互补,通过运动预测来补充单帧检测的不足,这个和以前的同思路文章主要创新在它是基于jde范式的方法做改进的,最核心的改进思路就是把mot非常敏感的时间信息引入one_shot方法的模型训练中。

四. TransTrack

多目标跟踪(MOT)多以复杂的多步跟踪-检测算法为主,分别进行目标检测、特征提取和时间关联。

单目标跟踪(SOT)的 Query-key 机制,是通过前一帧的目标特征来跟踪当前帧的目标,具有很大的研究潜力,可以建立一个简单的联合检测和跟踪的MOT范式。

但由于 query-key 方法无法检测到新来的目标,所以很少有人研究。

本次研究中,作者提出 TransTrack,带有 Transformer 的 MOT 基线。利用 query-key 机制的优势,在管道中引入一组学习目标查询,实现对新来目标的检测。TransTrack 有三大优势:

1、是基于 query-key 机制的在线 joint-detection-and-tracking(联合检测跟踪)pipeline,简化了以往方法中复杂、多步骤的组件。

2、是基于 Transformer 的全新架构,学习的对象查询检测当前帧中的对象。前一帧的对象特征查询将这些当前对象与前一帧的对象关联起来。

3、首次展示了一种简单有效的基于 query-key 机制和 Transformer 架构的方法,可以在 MOT17 挑战数据集上实现具有竞争力的 65.8% MOTA。

五. CenterTrack

CenterTrack输入是一对图像,以及根据首帧图像的检测结果渲染出的heatmap,同时完成跟踪和检测,达到了很强的实时性。模型会输出一个从当前对象中心到前一帧对象中心的偏移向量,并且这个偏移向量将作为中心点的一个附加属性来学习,从而只增加了很少的额外计算量。在有了中心点及偏移量以后,仅靠贪婪匹配策略即可将当前帧的对象与前一帧的相应对象建立起联系。

Tracking as points简化了传统跟踪方案的两个关键步骤:一是跟踪条件检测,因为过去帧中的每个对象都用单个点来表示,它的历史信息包含在它对应的heatmap中,模型可以从中直接提取相关信息;二是时间上的对象关联,通过预测出的位移向量可以很方便地将前后帧中相同的对象建立起联系。

CenterTrack的输入端将首帧的检测结果对应的heatmap也作为了输入,因为相邻帧间相关性往往较高,这样的做法会促使模型简单地复制先前的预测结果而拒绝做更多对跟踪有利的预测,因此作者在训练过程中加入了很多看起来极为激进的增强策略,试验结果表明,这些数据增强方法效果极佳。

传统跟踪方法(Tracking-by-detection)两个缺点:

(1)在建立跟踪联系过程中仅联合高层数(比如框位置等),会丢失图像外观信息,或者还需要有一个计算量比较大的特征提取器;

(2)检测和跟踪是分开进行的

CenterTrack的好处

CenterTrack简化了传统跟踪方案的两个关键步骤:一是跟踪条件检测(Tracking-conditioned detection),因为过去帧中的每个对象都用单个点来表示,它的历史信息包含在它对应的heatmap中,模型可以从中直接提取相关信息;二是时间上的对象关联,通过预测出的位移向量可以很方便地将前后帧中相同的对象建立起联系。直接通过中心点的距离来判断是否匹配,并非匈牙利算法那种全局的数据关联优化。

在模型训练上,CenterTrack有一个很大的优点是,其既可以在有标注的视频序列上训练,也可以通过对静态图像做数据增强来进行训练。

一是目标的联合与检测一同进行学习,同时还将前帧的跟踪结果作为输入,从而帮助模型恢复被遮挡和中断的目标;二是CenterTrack将跟踪的预测作为点的附加特征,这样网络可以推理并匹配处在画面里的所有目标,即使它们没有存在重叠部分。

有两个挑战:一是如何在每一帧中找出所以的对象,甚至包含被遮挡的对象;二是如何在时间上为这些对象建立联系。解决办法是:

Tracking-conditioned detection:利用先前帧的检测结果改善当前帧的检测;
Association through offsets:在时间轴上建立检测结果之间的联系

训练

在训练CenterTrack过程中一个最主要的挑战是如何生成一张接近真实情况的tracklets heatmap的问题:在模型推理期间,tracklets heatmap是根据模型预测结果渲染而来的,可能会存在数量不定的missing tracklets、错误定位的目标以及还可能有误检的目标存在。而这些情况在Ground Truth中是不存在的,也就是说如果我们直接利用基于Ground Truth渲染出的heatmap,是无法模拟这种实际情况的,也就会导致模型效果不佳。

上述问题解决办法是在训练过程中通过一些trick来模仿这些test-time error

处理细节

作为一个检测器,CenterNet已经能够给出跟踪所需的很多信息,如位置、大小和得分。但是它不具备预测未直接出现在当前帧的目标的功能,所以在CenterTrack中,将当前帧及其上一帧图像共同输入模型当中,旨在帮助网络估计场景中对象的变化并根据上一帧图像提供的线索恢复当前帧中可能未观察到的对象。

此外,CenterTrack还将上一帧图像的检测结果添加到输入中,具体做法是根据上一帧的检测结果绘制一张单通道heatmap,其中peak位置对应目标中心点,并使用与训练CenterNet过程中相同的高斯核渲染办法(根据目标大小调整高斯参数)进行模糊处理,为了降低误报概率,作者只对检测结果中得分高于一定阈值的目标进行渲染(即得分低的目标不会体现在新生成的heatmap上)。

综上,CenterTrack与CenterNet模型结构几乎相同,但是输入通道多了4个:上一帧图像(3 channels)、渲染出的heatmap(1 channel)。

  • 4
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值