【多目标跟踪论文阅读笔记——TransTrack】

[代码]TransTrack: Multiple Object Tracking with Transformer
[论文]https://github.com/PeizeSun/TransTrack

写在前面

本篇论文首次将Attention机制引入到多目标跟踪领域,而且不同于之前流行的Detection-Based-Tracking范式和Joint-Detection-and-Embedding范式,提出了一种Detect和Track两路并行后association的新范式Joint-Detetion-and-Tracking。

1. Abstract

本文提出了一种多目标跟踪算法TransTrack,其首次利用了基于注意力的query-key机制,通过两路并行的方式同时进行Detection和Tracking,最后将两路结果合并处理,输出最终跟踪结果。从而形成了一种新范式Joint-Detection-and-Tracking,经过实验验证,取得了接近SOTA的性能。

2. Introduction

在这里插入图片描述

MOT领域: DBT机制,detection和reid不能相互促进,独立进行
SOT领域: Query-Key机制,目标作为query,图像区域作为key,对单一目标相邻两帧比对搜索,可以考虑迁移到MOT领域

但是,直接把SOT上Query-Key方法迁移到MOT上不可行,因为SOT中默认不会产生新目标,而MOT中在后面出现的新目标会遗漏,导致False Negative会非常多。

所以作者提出,比较理想的状态是:既能很好地捕捉新目标,又能跟踪出之前的检测到的目标。

3. TransTrack

在这里插入图片描述

3.1 Encoder

Encoder部分的主要功能是提取相邻两帧的特征图,每次提取一帧并保存上一帧的结果。结构上,先用Resnet-50,后接N个堆叠的Self-attention块。

笔者认为这样的设计主要是考虑到:

  1. 如果全部用Transformer而不用CNN,需要的训练成本太大
  2. 在ViT中也提到了在中小型数据集中,这种混合使用CNN和Transformer的策略既能够保存一定的先验约束,又能够使用注意力习得更精准的特征,两种结构优势都能够发挥
  3. CNN在前面对输入图像的尺寸要求比较灵活,不固定要求特别尺寸的输入

3.2 Decoder

在第三章作者再次强调了这样的观点:

In MOT task, the desirable output is a complete and correctly ordered set of objects on each frame in a video.

其中complete主要靠检测环节捕捉new-coming obj,correctly ordered主要靠跟踪环节联系之前的目标。

按照这样的思路,作者设计了两个并行的Decoder通道:分别是Object Detection通道和Object Propagation通道(tracking 通道)

  1. Object Detection:
    主要完成目标检测工作,结构上遵从了DETR的设计,将可学习参数Object Query作为query输入,将Encoder输出的特征图作为key-value输入,输出为当前帧的检测结果bbox。
  2. Object Propagation:
    主要完成对上一帧的跟踪工作,将上一帧的特征图作为Track Query作query输入,将Encoder输出的特征图作为key-value输入,输出结果为对上一帧目标的跟踪结果bbox。

从总结构图和上述描述可以看出,Deceoder部分的两个分支的整体是相同的,唯一的区别在于两者输入的query不同,这也决定了两个分支的功能差异,另外注意decoder中先将query做一步self-attention,再与特征图做cross-attetion。

3.3 Assotiation

从Decoder同时获得两组bbox结果之后,类似于先前其他的MOT工作,使用KM算法(匈牙利算法的变形),基于IOU进行匹配。(后面的实验发现,用NMS进行匹配效果是一样的,这部分不起决定性作用。)

4. Expriment

4.1 Compare with SOTA

在这里插入图片描述

5. Conclusion

提出了一种Joint-Detection-and-Tracking的多目标跟踪范式,并且是基于Transformer的,性能还不错,在某些指标上能够达到SOTA。

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值