【多目标跟踪论文阅读笔记——TransTrack】

最新推荐文章于 2024-05-31 16:45:01 发布

书玮嘎

最新推荐文章于 2024-05-31 16:45:01 发布

阅读量873

点赞数 1

文章标签：目标跟踪计算机视觉人工智能

本文链接：https://blog.csdn.net/selami/article/details/122052398

版权

[阅读心得] 多目标跟踪经典论文——TransTrack

写在前面

[代码]TransTrack: Multiple Object Tracking with Transformer
[论文]https://github.com/PeizeSun/TransTrack

写在前面

本篇论文首次将Attention机制引入到多目标跟踪领域，而且不同于之前流行的Detection-Based-Tracking范式和Joint-Detection-and-Embedding范式，提出了一种Detect和Track两路并行后association的新范式Joint-Detetion-and-Tracking。

1. Abstract

本文提出了一种多目标跟踪算法TransTrack，其首次利用了基于注意力的query-key机制，通过两路并行的方式同时进行Detection和Tracking，最后将两路结果合并处理，输出最终跟踪结果。从而形成了一种新范式Joint-Detection-and-Tracking，经过实验验证，取得了接近SOTA的性能。

2. Introduction

在这里插入图片描述

MOT领域： DBT机制，detection和reid不能相互促进，独立进行
SOT领域： Query-Key机制，目标作为query，图像区域作为key，对单一目标相邻两帧比对搜索，可以考虑迁移到MOT领域

但是，直接把SOT上Query-Key方法迁移到MOT上不可行，因为SOT中默认不会产生新目标，而MOT中在后面出现的新目标会遗漏，导致False Negative会非常多。

所以作者提出，比较理想的状态是：既能很好地捕捉新目标，又能跟踪出之前的检测到的目标。

3. TransTrack

在这里插入图片描述

3.1 Encoder

Encoder部分的主要功能是提取相邻两帧的特征图，每次提取一帧并保存上一帧的结果。结构上，先用Resnet-50，后接N个堆叠的Self-attention块。

笔者认为这样的设计主要是考虑到：

如果全部用Transformer而不用CNN，需要的训练成本太大
在ViT中也提到了在中小型数据集中，这种混合使用CNN和Transformer的策略既能够保存一定的先验约束，又能够使用注意力习得更精准的特征，两种结构优势都能够发挥
CNN在前面对输入图像的尺寸要求比较灵活，不固定要求特别尺寸的输入

3.2 Decoder

在第三章作者再次强调了这样的观点：

In MOT task, the desirable output is a complete and correctly ordered set of objects on each frame in a video.

其中complete主要靠检测环节捕捉new-coming obj，correctly ordered主要靠跟踪环节联系之前的目标。

按照这样的思路，作者设计了两个并行的Decoder通道：分别是Object Detection通道和Object Propagation通道(tracking 通道)

Object Detection:
主要完成目标检测工作，结构上遵从了DETR的设计，将可学习参数Object Query作为query输入，将Encoder输出的特征图作为key-value输入，输出为当前帧的检测结果bbox。
Object Propagation:
主要完成对上一帧的跟踪工作，将上一帧的特征图作为Track Query作query输入，将Encoder输出的特征图作为key-value输入，输出结果为对上一帧目标的跟踪结果bbox。

从总结构图和上述描述可以看出，Deceoder部分的两个分支的整体是相同的，唯一的区别在于两者输入的query不同，这也决定了两个分支的功能差异，另外注意decoder中先将query做一步self-attention，再与特征图做cross-attetion。