论文解读《TransTrack: Multiple-Object Tracking with Transformer》

论文地址:https://arxiv.org/pdf/2012.15460.pdf

自从2020年ECCV中DETR在object detection领域惊艳众人以后,这种transformer-based的结构应用到了视觉中很多领域,其中就包括MOT。TransTrack这篇文章应该是transformer第一次应用到MOT上面的尝试,效果SOTA,而且思路个人认为很棒很简洁。

以前的MOT任务都是将detection和reid当作两个独立任务来处理,虽然以JDE、FairMOT为代表的方法将两个网络耦合在一起,但tracking还是离不开deepsort,而且object集合的无序性会带来一定的麻烦。于是作者将transformer这类的key-query机制引入到MOT,大致流程如下图:
在这里插入图片描述

输出当前帧图像,经过一个CNN得到feature map,打散维度再经过encoder得到key;然后有两个并行的decoder,其中一个将key和learned object query(详细见DETR)作为输入,这个learned object query是一组学习到的embedding,一定程度上表示着目标的位置(与anchor有些类似),通过该decoder就可以得到该帧的detection box;另一个decoder将key与上一帧的object feature query作为输入,根据上一帧object的特征可以associate到当前帧的对应object的位置,从而得到当前帧的tracking box。

随后将tracking box和detection box之间进行匹配,通过将框之间的iou作为代价,采用KM算法进行匹配,匹配上的就是track到上一帧的object,其余box为当前帧新出现的object。

模型图如下所示:
在这里插入图片描述
实验部分感兴趣的话可以看一下论文,这里就贴一张图:

在这里插入图片描述

参考:https://zhouchen.blog.csdn.net/article/details/112427217

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值