论文解读《TransTrack: Multiple-Object Tracking with Transformer》

最新推荐文章于 2023-12-04 15:41:24 发布

汐梦聆海

最新推荐文章于 2023-12-04 15:41:24 发布

阅读量1.6k

点赞数

分类专栏：多目标追踪 Attention

本文链接：https://blog.csdn.net/jackzhang11/article/details/114978755

版权

Attention 同时被 2 个专栏收录

8 篇文章 3 订阅

订阅专栏

多目标追踪

6 篇文章 6 订阅

订阅专栏

论文地址：https://arxiv.org/pdf/2012.15460.pdf

自从2020年ECCV中DETR在object detection领域惊艳众人以后，这种transformer-based的结构应用到了视觉中很多领域，其中就包括MOT。TransTrack这篇文章应该是transformer第一次应用到MOT上面的尝试，效果SOTA，而且思路个人认为很棒很简洁。

以前的MOT任务都是将detection和reid当作两个独立任务来处理，虽然以JDE、FairMOT为代表的方法将两个网络耦合在一起，但tracking还是离不开deepsort，而且object集合的无序性会带来一定的麻烦。于是作者将transformer这类的key-query机制引入到MOT，大致流程如下图：
在这里插入图片描述

输出当前帧图像，经过一个CNN得到feature map，打散维度再经过encoder得到key；然后有两个并行的decoder，其中一个将key和learned object query（详细见DETR）作为输入，这个learned object query是一组学习到的embedding，一定程度上表示着目标的位置（与anchor有些类似），通过该decoder就可以得到该帧的detection box；另一个decoder将key与上一帧的object feature query作为输入，根据上一帧object的特征可以associate到当前帧的对应object的位置，从而得到当前帧的tracking box。

随后将tracking box和detection box之间进行匹配，通过将框之间的iou作为代价，采用KM算法进行匹配，匹配上的就是track到上一帧的object，其余box为当前帧新出现的object。

模型图如下所示：
在这里插入图片描述
实验部分感兴趣的话可以看一下论文，这里就贴一张图：

在这里插入图片描述

参考：https://zhouchen.blog.csdn.net/article/details/112427217

汐梦聆海

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
论文解读《TransTrack: Multiple-Object Tracking with Transformer》

论文地址：https://arxiv.org/pdf/2012.15460.pdf自从2020年ECCV中DETR在object detection领域惊艳众人以后，这种transformer-based的结构应用到了视觉中很多领域，其中就包括MOT。TransTrack这篇文章应该是transformer第一次应用到MOT上面的尝试，效果SOTA，而且思路个人认为很棒很简洁。以前的MOT任务都是将detection和reid当作两个独立任务来处理，虽然以JDE、FairMOT为代表的方法将两个网络耦合
复制链接

扫一扫

专栏目录