cotracker_速读

CoTracker: It is Better to Track Together

https://arxiv.org/abs/2307.07635
https://github.com/facebookresearch/co-tracker

abstract

这篇文章介绍了一种名为CoTracker的创新性密集点跟踪器,旨在提高视频跟踪的性能。CoTracker利用不同轨迹之间的相关性,实现出色的长期跟踪性能。该跟踪器能够在单个GPU上同时跟踪70k个点,是视频跟踪领域的重要突破。文章还讨论了CoTracker与现有最先进方法的区别,介绍了其引入的技术创新以及如何提高跟踪的准确性和稳健性。

contribution

本文的主要创新点包括:

  1. CoTracker支持同时跟踪大量轨迹,利用轨迹之间的相关性提高跟踪性能。
  2. 引入了虚拟轨迹的概念,使CoTracker能够同时跟踪70k个点,提高了跟踪的效率。
  3. CoTracker采用滑动窗口方式操作,支持在线任务,并通过在较长视频序列上展开窗口进行训练,显著改善了长期跟踪性能。

related work

本文的相关工作主要包括以下几个方面:

  1. 光流估计:传统方法通过研究颜色恒定方程来估计密集瞬时运动,而现代方法采用深度学习,如FlowNet和DCFlow。最近的工作如RAFT引入了增量流更新,启发了后续工作。本文将4D成本体积和迭代更新应用于跟踪问题。
  2. Transformer在光流问题中的应用:Flowformer和GMFlow等工作将Transformer应用于光流问题,提出了基于Transformer的方法来处理4D成本体积。
  3. 其他跟踪器:TAPIR和PIPs++等现代跟踪器采用现代架构,能够在遮挡情况下跟踪点,但仍然独立建模轨迹。本文通过引入CoTracker,支持同时估计大量轨迹,取得了显著的性能提升。

method

本文方法的步骤如下:

  1. 初始化轨迹:在滑动窗口内,使用查询点初始化轨迹。网络逐步通过迭代应用Transformer来改进这些初始估计。
  2. 轨迹更新:每个重叠的窗口从前一个窗口的改进预测开始,并更新新帧的轨迹。未初始化的点在当前滑动窗口中被屏蔽,允许从视频的任何点初始化轨迹,包括在窗口中间,并将窗口连接在一起。
  3. 训练网络:通过展开多个滑动窗口来训练网络,CoTracker实现了出色的长期跟踪性能。
  4. Transformer设计:CoTracker的网络是一个Transformer,在二维令牌表示上以滑动窗口方式运行,其中维度是时间和被跟踪的点集。通过适当的自注意力操作符,Transformer可以在窗口的持续时间内将每个轨迹视为一个整体,并在轨迹之间交换信息,从而利用它们的相关性。
  5. 虚拟轨迹:当跟踪大量点时,CoTracker在其Transformer设计中引入了少量代表性虚拟轨迹令牌,从昂贵的虚拟轨迹之间的自注意力切换到后者与真实轨迹之间的交叉注意力。这样,CoTracker可以在单个GPU上联合跟踪近密集的轨迹集合。

通过这些步骤,CoTracker实现了在视频序列中联合跟踪大量点,并利用轨迹之间的相关性来提高跟踪性能。

experiments

本文在标准的真实和合成跟踪基准测试上对CoTracker进行了全面评估,以评估其在困难条件下的性能和泛化特性,以及与众多最先进跟踪器的比较。

实验包括以下几个方面:

  1. 单目标轨迹:为了确保评估公平性,采用了“单目标轨迹”协议,每次跟踪一个基准点,但自动添加额外的支持点以允许模型进行联合跟踪。通过比较不同支持轨迹配置,可以更好地量化联合跟踪的重要性。
  2. 数据集和评估协议:使用TAP-Vid数据集,包括三个真实数据集用于评估和一个合成数据集用于训练。合成数据集TAP-Vid-Kubric由Kubric引擎生成,包含24帧序列,展示了3D刚体物体受重力作用下落和弹跳的情况。
  3. 支持点配置:实验尝试不同类型的支持点配置,如“全局”策略和“局部”策略,以及使用SIFT检测器选择支持点。这些配置仅在推断时考虑,用于提高对目标点的跟踪准确性。

通过这些实验,作者全面评估了CoTracker在各种条件下的性能表现,并展示了其在跟踪任务中的优越性能。

valuate metrics

本文实验中使用的评估指标包括:

  1. Average Jaccard (AJ):平均杰卡德指数,用于评估目标与预测边界框之间的重叠程度。
  2. Average δvis:平均可见性误差,用于评估目标在视频帧中的可见性。
  3. Overall Accuracy (OA):总体准确率,综合考虑了跟踪的准确性和稳定性。
  4. Average δ:平均误差,用于评估跟踪点的位置精度。
  5. Average δocc:平均遮挡误差,用于评估目标在视频中被遮挡时的跟踪性能。

这些评估指标帮助评估CoTracker在不同方面的跟踪性能,包括准确性、稳定性、可见性和遮挡情况下的表现。

基于CNN+RNN+GCN+BERT的中文文本分类Python实现源码,个人经导师指导并认可通过的高分设计项目,评审分98分,项目中的源码都是经过本地编译过可运行的,都经过严格调试,确保可以运行!主要针对计算机相关专业的正在做大作业、毕业设计的学生和需要项目实战练习的学习者,资源项目的难度比较适中,内容都是经过助教老师审定过的能够满足学习、使用需求,如果有需要的话可以放心下载使用。 基于CNN+RNN+GCN+BERT的中文文本分类Python实现源码基于CNN+RNN+GCN+BERT的中文文本分类Python实现源码基于CNN+RNN+GCN+BERT的中文文本分类Python实现源码基于CNN+RNN+GCN+BERT的中文文本分类Python实现源码基于CNN+RNN+GCN+BERT的中文文本分类Python实现源码基于CNN+RNN+GCN+BERT的中文文本分类Python实现源码基于CNN+RNN+GCN+BERT的中文文本分类Python实现源码基于CNN+RNN+GCN+BERT的中文文本分类Python实现源码基于CNN+RNN+GCN+BERT的中文文本分类Python实现源码基于CNN+RNN+GCN+BERT的中文文本分类Python实现源码基于CNN+RNN+GCN+BERT的中文文本分类Python实现源码基于CNN+RNN+GCN+BERT的中文文本分类Python实现源码基于CNN+RNN+GCN+BERT的中文文本分类Python实现源码基于CNN+RNN+GCN+BERT的中文文本分类Python实现源码基于CNN+RNN+GCN+BERT的中文文本分类Python实现源码基于CNN+RNN+GCN+BERT的中文文本分类Python实现源码基于CNN+RNN+GCN+BERT的中文文本分类Python实现源码基于CNN+RNN+G
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

_bound

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值