AAAI 2024 | 广西师范大学提出ODTrack:目标跟踪新框架

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【目标跟踪和Mamba】交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

dbe8d3382b6dc63a97ea38b2b30b3ea8.jpeg

52b051cf663572ca69d282e990bc69ac.png

ODTrack: Online Dense Temporal Token Learning for Visual Tracking

论文:https://arxiv.org/pdf/2401.01686

开源代码:

https://github.com/GXNU-ZhongLab/ODTrack

fd86fe1f414dd3f391e77ee7744bff4d.png

简介:

跨连续视频帧的在线上下文推理和关联对于感知视频中的目标实例至关重要。然而,目前大多数性能优异的跟踪器一直通过离线模式依赖于参考帧和搜索帧之间稀疏的时间关系。因此,它们只能在每个图像对之间执行独立的交互,并建立有限的时间相关性。为了缓解上述问题,研究者们提出了一个简单、灵活、有效的视频级跟踪框架,命名为 ODTrack,它以在线Token传播的方式密集关联视频帧的上下文关系。ODTrack能够接收任意长度的视频帧,捕捉实例的时空轨迹关系,并将目标的辨别特征(定位信息)压缩成Token序列,实现帧与帧之间的关联。这种新的解决方案具有以下优点:1)经过提纯的Token序列可以作为下一帧视频推理的提示,从而利用过去的信息来指导未来的推理;2)Token序列的迭代传播有效避免了复杂的在线更新策略,因此研究者们的方法可以实现更高效的模型表示和计算。ODTrack 在七个基准测试中取得了全新的SOTA 性能,同时还能以实时速度运行。

方法概览:

以往的跟踪器通常采用计算相似度的方法去匹配目标,然而在这个工作中,研究者们将视觉跟踪重新表述为一项Token传播任务,以自回归的方式密集关联各个视频帧的上下文关系。其方法的整体框架图如下图所示:

79e573052e2a8ac1c074b6b694846054.png

视频序列采样策略:

为了从长时序的视频序列中获取更丰富的目标实例时空轨迹信息,研究者们抛弃传统的短期图像对采样方法,提出了一种新的视频序列采样策略。具体来说,研究者们建立了一个较大的采样间隔,并在此时间间隔内随机提取多个视频帧(包括多个参考帧和多个搜索帧),形成任意长度的视频片段{R1,R2,...,Rk,S1,S2,...,Sn}。虽然这种采样方法看似简单,但却能让模型近似地了解整个视频序列的内容。这对于视频级建模至关重要。

时间Token传播注意力机制:

为了构建优雅的实例级帧间注意力机制,需要扩展原始的2D注意力操作,以提取和聚集视频级特征。

在所提出的方法中,研究者基于“压缩-传播”的概念设计了两种时间Token注意力机制,即合并token注意力机制和分离token注意力机制,如下图所示。   

52eff8e567e5b81f534897e0e74d4ad3.png

所提出注意力机制的核心设计在于向注意力操作注入额外的信息,例如:更多的视频序列内容和时间Token向量,使它们能够提取目标实例更丰富的时空轨迹信息。其注意力操作的公式表达如下:

e72f2c0de5658d4a3aba8606f95a52e6.png

值得注意的是,研究者为每个视频帧引入了时间Token(Tt),目的是存储采样视频序列的目标轨迹信息。换句话说,研究者先将目标的当前时空轨迹信息压缩转换为Token向量,该向量用于传播到后续视频帧。

通过这种建模方法,使得所提出的框架能够简化视频级时空建模,避免复杂的在线更新策略。

实验结果:

如下表所示,在大尺度数据集LaSOT,LaSOText,TrackingNet,GOT10K上,ODTrack取得了优秀的性能。例如,与同样适用ViT的OSTrack相比,ODTrack在四个数据集上均取得了更好的结果。   

9cc6b5fecc8c6429a439759498008c8c.png

另外,在VOT2020,TNL2K和OTB100数据集上,ODTrack也取得了领先的性能,验证了ODTrack的泛化性。

74316e8da97dfa39e78105fb444922b0.png

e83ec5e4a242c04a10e4272db879f588.png

结语:

在这项工作中,研究者们提出了用于视觉目标跟踪的全新视频级框架 ODTrack。研究者们将视觉跟踪重新表述为一项Token传播任务,以自回归的方式密集关联各视频帧的上下文关系。此外,研究者们还提出了一种视频序列采样策略和两种时间Token传播注意力机制,从而使所提出的框架能够简化视频级时空建模,避免复杂的在线更新策略。广泛的实验表明,所提出的ODTrack在七个跟踪基准上取得了令人满意的结果。研究者们希望这项工作能进一步激发视频级跟踪建模的研究。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

目标跟踪和Mamba交流群成立

 
 
扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-目标跟踪或者Mamba微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标跟踪或者Mamba+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer5555,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值