目标跟踪算法个人理解-ODTrack篇

update-forever

已于 2024-02-14 00:00:29 修改

阅读量4.8k

点赞数 26

文章标签：目标跟踪算法人工智能

于 2024-02-12 20:36:08 首次发布

本文链接：https://blog.csdn.net/nulishuaxinzhong/article/details/136100098

版权

系列文章目录

目标跟踪算法个人理解-KeepTrack篇
 目标跟踪算法个人理解-GRM篇
 目标跟踪算法个人理解-SeqTrack篇
 目标跟踪算法个人理解-ARTrack篇

文章目录

前言
ODTrack简介
一、Introduction
二、Related Work
三、Approach
三、Experiments
五、总结
code

前言

AAAI2024中稿文章，跟ARTrack一样，都开始探索如何更好的利用时序信息。都在说SOT快刷到头了，但我感觉真正符合单目标跟踪任务本质的算法研究才刚刚开始。

ODTrack简介

文章全名：ODTrack: Online Dense Temporal Token Learning for Visual Tracking

原文地址：https://arxiv.org/abs/2401.01686

代码地址：https://github.com/GXNU-ZhongLab/ODTrack

连续视频帧之间的在线上下文推理和关联对于视觉跟踪中的实例感知至关重要。然而，目前大多数表现最好的跟踪器通过离线模式持续依赖于参考帧和搜索帧之间的稀疏时间关系。因此，它们只能在每个图像对内独立地进行交互，并建立有限的时间相关性。
为了缓解上述问题，提出了一种简单、灵活和有效的视频级跟踪管道，命名为ODTrack，它以在线令牌传播的方式（online token propagation manner）密集关联视频帧的上下文关系。ODTrack接收任意长度的视频帧（实验发现3帧最好）以捕获目标实例的时空轨迹关系，并将目标的判别特征(定位信息)压缩为令牌序列，实现帧与帧的关联。
这种新的解决方案带来了以下好处：1 )压缩提纯后的令牌序列可以作为下一个视频帧中推理的prompt，从而利用过去的信息来指导未来的推理；2 )通过令牌序列的迭代传播，有效地避免了复杂的在线更新策略，从而实现了更高效的模型表示和计算。
在这里插入图片描述

一、Introduction

提出了一种新颖的视频级跟踪管道，称为ODTrack。与现有的基于稀疏时间建模的跟踪方法不同，采用令牌序列传播范式来密集关联视频帧之间的上下文关系。
引入了两种时间令牌传播注意力机制，将目标的判别性特征压缩到一个令牌序列中。该令牌序列作为一个提示来指导未来帧的推断，从而避免了复杂的在线更新策略。
ODTrack在七个视觉跟踪基准上取得了最新的跟踪结果，包括LaSOT，TrackingNet，GOT10K，LaSOText，VOT2020，TNL2K和OTB100。

二、Related Work

传统的跟踪范式
Siamese tracking paradigm, which achieves tracking by image-pair matchin。并讨论所提方法的不同：与这些方法不同的是，ODTrack将目标跟踪重新定义为令牌序列传播任务，并旨在扩展孪生跟踪器，以自回归的方式有效地利用目标的时间信息。
视觉追踪中的时间建模
从MOT讲起，MOT通常涉及视频中单个目标的识别和关联，使得对轨迹信息的研究成为一种普遍的做法。然而，在单目标跟踪算法中探索时空轨迹信息利用的研究相对较少。
在SOT中，详细列出了精心设计的在线更新方法，这些方法可以认为是在探索如何利用时间线索。（STARK，TCTrack，VideoTrack，ARTrack…）
指出它们的局限性：1）优化过程复杂，涉及到专门损失函数的设计和多阶段训练策略。2）没有研究时间线索是如何在搜索框架中传播的。
ODTrack：从令牌传播的角度引入了一种新的密集上下文传播机制，为规避复杂的优化过程和训练策略提供了一种解决方案。ODTrack其重点是通过目标运动/轨迹信息的传播来释放时间建模的潜力。

三、Approach

在这里插入图片描述

Video-Level Tracking Pipeline
上图所示为新的视频级框架ODTrack的流程图。理论上，ODTrack将整个视频建模为一个连续的序列，并以自回归的方式逐帧解码目标的位置。首先，针对视频级模型的输入要求，提出了一种新颖的视频序列采样策略。随后，为了捕获视频序列中目标实例的时空轨迹信息，引入了两种简单而有效的时间令牌传播注意力机制。

Video Sequence Sampling Strategy
现有的大多数跟踪器通常在较短的时间间隔内采样图像对，如50、100或200帧间隔。然而，这种采样方式存在潜在的局限性，因为这些跟踪器无法捕获被跟踪对象的长期运动变化，从而限制了跟踪算法在长期场景中的鲁棒性。
为了从长时间的视频序列中获取目标实例更丰富的时空轨迹信息，ODTrack偏离了传统的短时图像对采样方法，提出了一种新的视频序列采样策略。具体来说，ODTrack建立一个较大的采样间隔，在这个间隔内随机抽取多个视频帧，形成任意长度的视频片段{ R1，R2，…，Rk，S1，S2，…，Sn }。虽然这种采样方式可能看起来很简单，但它能够近似整个视频序列的内容。这对于视频级建模至关重要。
Temporal Token Propagation Attention Mechanism
串联的令牌注意力机制b)和分离的令牌注意力机制c)

最低0.47元/天解锁文章