目标跟踪
文章平均质量分 91
微醺的水
这个作者很懒,什么都没留下…
展开
-
MixFormerV2 Efficient Fully Transformer Tracking(CVPR2023)学习笔记
本文提出了一种名为MixFormerV2的高效全Transformer跟踪框架,它不仅能够保持高精度,而且能够在GPU和CPU平台上实现高效部署。其核心设计是引入四个特殊的预测tokens,并将它们与目标模板和搜索区域的tokens连接起来,然后在这些混合的tokens序列上应用统一的Transformer骨干。这些预测tokens能够通过混合的注意力机制来捕捉目标模板和搜索区域之间的复杂关系。此外,本文还提出了一种基于蒸馏的模型压缩范式,包括稠密到稀疏的蒸馏和深到浅的蒸馏。原创 2023-06-11 15:25:14 · 1020 阅读 · 0 评论 -
SparseTT Visual Tracking with Sparse Transformers学习笔记
这篇论文的研究动机是针对当前自注意力机制在目标跟踪任务中存在的问题:缺乏对搜索区域中最相关信息的关注,容易受到背景的干扰,从而导致跟踪性能下降。为了解决这个问题,论文提出了一种稀疏自注意力机制,能够集中关注搜索区域中最相关的信息,从而提高目标跟踪的准确性。同时,论文还引入了一个双头预测器来提高前景-背景分类和目标边界框回归的准确性,进一步提高跟踪性能。原创 2023-06-09 11:33:00 · 605 阅读 · 0 评论 -
Transformers in Single Object Tracking An Experimental Survey(目标跟踪最新综述CVPR2023)学习笔记
本文主要介绍了基于Transformer的单目标跟踪方法,对这些方法进行了分类、分析、评估和比较,并提出了未来的研究方向。具体来说,本文介绍了Transformer的基本原理和相关知识,然后介绍了基于CNN-Transformer、One-stream One-stage fully-Transformer、Two-stream Two-stage fully-Transformer等不同架构的跟踪器,并在多个公开数据集上对它们进行了实验评估。原创 2023-06-07 21:29:46 · 3208 阅读 · 0 评论 -
STMTrack Template-free Visual Tracking with Space-time Memory Networks(STMTrack)学习笔记
离线训练的连体跟踪器的提升性能现在变得更加困难,因为从第一帧裁剪的模板的固定信息几乎是彻底挖掘的,但它们无法抵抗目标外观变化。现有的带有模板更新机制的跟踪器依赖于耗时的数值优化和复杂的手工设计的策略来实现具有竞争力的性能,阻碍了它们的实时跟踪和实际应用。因此在本文中,提出了一种新的跟踪框架,该框架建立在时空记忆网络之上,该框架能够充分利用与目标相关的历史信息,以更好地适应跟踪过程中的外观变化,而且在运行时也具有更强的鲁棒性和更准确的目标边界框。原创 2023-06-05 15:15:14 · 350 阅读 · 0 评论 -
Autoregressive Visual Tracking(ARTrack)CVPR2023学习笔记
这篇论文的研究动机是传统的视觉目标跟踪方法通常将跟踪视为每帧模板匹配问题,忽略了视频帧之间的时序依赖性。本文的作者提出了一种新的框架,将跟踪视为坐标序列解释任务,通过学习一个简单的端到端模型来进行直接轨迹估计。该方法可以建模轨迹的时序演变,以保持跟踪结果的连贯性。相比现有的基于模板匹配的跟踪器,该方法可以更好地处理目标变形、尺度变化、遮挡和干扰等问题,并且不需要定制的定位头和后处理步骤。原创 2023-06-04 15:54:35 · 3202 阅读 · 5 评论 -
Compact Transformer Tracker with Correlative Masked Modeling(CTTrack)学习笔记
这篇论文试图解决视觉目标跟踪中的信息聚合问题,通过对注意力机制及自注意力机制的分析,证明了基础的自注意力机制是足够进行信息聚合的,不需要进行结构上的调整。同时,文章提出了一种基于自注意力机制的紧凑型转换跟踪器,并采用相关的掩蔽建模策略来增强模型的信息聚合能力。该转换跟踪器只包含ViT骨干网络和边界框头,且实现速度可达40 fps。通过在五个具有挑战性的数据集上的实验,该跟踪器表现出优于现有方法的表现,并证明了自注意力在跟踪任务中的充分性。原创 2023-06-02 09:31:09 · 508 阅读 · 0 评论 -
Target-Aware Tracking with Long-term Context Attention(TATrack)学习笔记
大多数深度追踪器仍然遵循孪生范例的指导,使用一个只包含目标而没有任何上下文信息的模板,这使得追踪器难以应对巨大的外观变化、快速的目标移动以及来自类似物体的吸引。为了缓解上述问题,提出了一个长期上下文注意(LCA)模块,该模块可以从长期帧对目标及其上下文进行广泛的信息融合,并在增强目标特征的同时计算目标相关性。完整的上下文信息包含目标位置以及目标周围的状态。LCA使用来自前一帧的目标状态来排除相似物体和复杂背景的干扰,从而准确定位目标,使跟踪器获得更高的鲁棒性和回归精度。原创 2023-06-01 10:14:06 · 1055 阅读 · 1 评论 -
Transforming Model Prediction for Tracking(ToMP)学习笔记
基于优化的跟踪方法通过整合目标模型预测模块已被广泛成功,通过最小化目标函数来提供有效的全局推理。虽然这种归纳偏差整合了有价值的领域知识,但它限制了跟踪网络的表达能力。因此,在这项工作中,提出了一种使用基于 Transformer 的模型预测模块的跟踪器架构。Transformer 捕捉全局关系时几乎没有归纳偏差,使其能够学习更强大的目标模型的预测。我们进一步扩展模型预测器以估计第二组权重,这些权重被应用于精确的包围盒回归。原创 2023-05-31 20:25:29 · 586 阅读 · 0 评论 -
Transformer Meets Tracker Exploiting Temporal Context for Robust Visual Tracking(TrDiMP)学习笔记
在视频目标跟踪中,连续帧之间存在着丰富的时间背景,这在很大程度上被现有的跟踪器所忽视。在这项工作中,我们将单个视频帧桥接起来,并通过一个用于鲁棒对象跟踪的Transformer架构探索它们之间的时间上下文。Transformer 编码器通过基于注意力的特征强化来促进目标模板,这有利于高质量的跟踪模型生成。Transformer 解码器将跟踪线索从以前的模板传播到当前帧,这有助于对象搜索过程。原创 2023-05-31 20:19:57 · 431 阅读 · 0 评论 -
Backbone is All Your Need A Simplified Architecture for Visual Object Tracking(SimTrack)学习笔记
论文地址:https://arxiv.org/pdf/2203.05328。原创 2023-05-31 20:17:14 · 737 阅读 · 0 评论 -
Learning Spatio-Temporal Transformer for Visual Tracking(STARK)学习笔记
论文地址:https://arxiv.org/pdf/2103.17154。原创 2023-05-31 20:13:48 · 411 阅读 · 0 评论 -
AiATrack学习笔记
论文地址:https://arxiv.org/pdf/2207.09603。原创 2023-05-31 20:12:28 · 1007 阅读 · 0 评论 -
MixFormer学习笔记
视觉对象跟踪通常采用特征提取、目标信息集成和边界框估计的多阶段管道。为了简化这一流程,并统一特征提取和目标信息集成的过程,本文提出了一种基于转换器的紧凑跟踪框架MixFormer。我们的核心设计是利用注意力操作的灵活性,并提出一种混合注意力模块(MAM)来同时进行特征提取和目标信息整合。这种同步建模方案允许提取特定于目标的区分特征,并在目标和搜索区域之间进行广泛的通信。基于 MAM,我们只需通过堆叠多个 MAM 并将定位头放在顶部来构建我们的 MixFormer跟踪器。原创 2023-05-23 15:38:59 · 2161 阅读 · 3 评论 -
Squeeze-and-Excitation Networks(SENet)学习笔记
卷积操作是卷积神经网络(CNNs)的核心构造块,它通过融合每一层局部接受域(感受野)内的空间和信道信息使网络构建信息特征。大量先前的研究已经调查了这种关系的空间成分,试图通过在其特征层次中提高空间编码的质量来提升CNN的表征能力。将重点放在通道关系上提出一个新的架构单元——“Squeeze-and-Excitation”(SE)块。通过显式地建模通道之间的相互依赖,自适应地重新校准信道特征响应。(1)SE模块可以堆叠在一起,形成SENet架构,在不同的数据集上非常有效地泛化。原创 2023-04-21 11:27:46 · 516 阅读 · 0 评论 -
SiamRPN学习
主要讲述目前大部分深度学习算法无法达到高速和准确同时兼顾,本文的SiamRPN利用大量训练图片实现端对端的离线训练,通过孪生网络进行特征提取,RPN网络进行分类和回归操作。在实际跟踪阶段,可以视为单样本目标检测过程(one-shot detection),我们可以预先计算Siamese子网络的模板分支,并将相关层表示为琐屑卷积层来进行在线跟踪。通过改进方案,可以摒弃传统的多尺度测试和在线微调。原创 2023-04-05 10:37:28 · 1355 阅读 · 0 评论 -
SiamFC++学习
文章标题:《SiamFC++:Towards Robust and Accurate Visual Tracking with Target Estimation Guidelines》文章地址:https://arxiv.org/abs/1911.06188github地址:https://github.com/MegviiDetection/video_analyst参考链接:https://blog.csdn.net/Yemiekai/article/details/121982795。原创 2023-04-03 15:38:25 · 847 阅读 · 0 评论 -
SiamRPN++学习
基于Siamese网络的跟踪器将跟踪表述为目标模板和搜索区域之间的卷积特征互相关。然而,与最先进的算法相比,Siamese追踪器仍有精度上的差距,它们不能利用深度网络的特征,如ResNet-50或更深的网络。在这项工作中,证明核心原因来自于缺乏严格的平移不变性。通过全面的理论分析和实验验证,我们通过一个简单而有效的空间感知采样策略打破了这一限制,成功地训练了基于ResNet网络的孪生跟踪器,并取得了显著的性能提升。原创 2023-03-30 14:59:02 · 637 阅读 · 0 评论 -
SiamMask学习
在本文中,展示如何用一种简单的方法实时执行视觉目标跟踪和半监督视频目标分割。方法被称为SiamMask,通过使用二进制分割任务增加损失,改进了用于目标跟踪的流行全卷积Siamese方法的离线训练过程。一旦训练完毕,SiamMask仅依赖单个边界框初始化,并在线操作,产生类无关的对象分割掩码和旋转边界框每秒55帧。原创 2023-03-27 11:49:06 · 628 阅读 · 0 评论 -
DaSiamRPN学习
大多数Siamese追踪方法中使用的特征只能从非语义背景中区分出前景。语义背景总是被认为是干扰因素,这阻碍了Siamese追踪器的稳健性。本文中,我们专注于学习 Distractor-aware 的 Siamese网络,以实现准确和长期跟踪。首先分析了传统Siamese追踪器中使用的特征,训练数据的不平衡分布使得所学的特征不那么具有辨别力。在离线训练阶段,引入了一种有效的采样策略来控制这种分布,并使模型专注于语义干扰物。原创 2023-03-25 16:44:19 · 481 阅读 · 0 评论 -
RASNet学习
本文提出了一个用于高性能物体跟踪的剩余注意力连体网络(RASNet)。RASNet模型在连体跟踪框架内重新定义了相关滤波器,并引入了不同种类的注意力机制,以适应模型,而无需在线更新模型。特别是,通过利用离线训练的一般注意力、目标适应的残差注意力和通道偏爱的特征注意力,RASNet不仅缓解了深度网络训练中的过拟合问题,而且由于表示学习和判别器学习的分离,增强了其判别能力和适应性。所提出的深度架构从头到尾进行训练,并充分利用丰富的空间时间信息来实现稳健的视觉跟踪。原创 2023-03-24 11:10:54 · 380 阅读 · 0 评论 -
Fully-Convolutional Siamese Networks for Object Tracking(SiamFC 算法学习)
SiamFC算法学习笔记原创 2022-11-27 10:10:48 · 1676 阅读 · 0 评论 -
KCF算法学习
KCF算法学习笔记原创 2022-11-14 22:16:19 · 4111 阅读 · 0 评论 -
视频目标跟踪综述学习笔记
目标跟踪就是在一段视频序列中定位感兴趣的运动目标,得到目标完整的运动轨迹。原创 2022-11-05 22:14:15 · 1247 阅读 · 1 评论