STMTrack Template-free Visual Tracking with Space-time Memory Networks(STMTrack)学习笔记

STMTrack: Template-free Visual Tracking with Space-time Memory Networks

论文地址:https://arxiv.org/pdf/2104.00324

动机:

离线训练的连体跟踪器的提升性能现在变得更加困难,因为从第一帧裁剪的模板的固定信息几乎是彻底挖掘的,但它们无法抵抗目标外观变化。现有的带有模板更新机制的跟踪器依赖于耗时的数值优化和复杂的手工设计的策略来实现具有竞争力的性能,阻碍了它们的实时跟踪和实际应用。因此在本文中,提出了一种新的跟踪框架,该框架建立在时空记忆网络之上,该框架能够充分利用与目标相关的历史信息,以更好地适应跟踪过程中的外观变化,而且在运行时也具有更强的鲁棒性和更准确的目标边界框。

贡献:

这篇论文提出了一种基于时空记忆网络的跟踪框架,通过存储与目标相关的历史信息来更好地适应跟踪过程中的外观变化。具体来说,引入了一种新颖的存储机制,该机制能够存储目标的历史信息,以指导跟踪器集中关注当前帧中最具信息量的区域。此外,记忆网络的像素级相似度计算使得跟踪器能够生成更准确的目标边界框。

1、Proposed Method

1.1、Architecture

image-20230605143030790

如图2所示,该框架可以分为特征提取网络、时空记忆网络和头网络三个部分。特征提取网络由内存分支(浅绿色)和查询分支(浅蓝色)组成。内存分支将内存帧和相应的前景-背景标签映射(将在下一节中解释)作为输入,而查询分支的输入仅为单个查询帧。在这项工作中,内存帧是多个历史帧,查询帧是跟踪序列中的当前帧。在特征提取之后,时空记忆网络从所有记忆帧的特征中检索与目标相关的信息,生成合成特征映射以从背景中分类目标并预测查询帧的目标边界框。

1.2、Feature Extraction Network

在这里,我们分别描述了内存分支和查询分支的特征提取过程。

Memory Feature Extraction

内存分支的输入是 T 个内存帧 m m m(每一帧是 m i m_i mi), T T T 个前景背景标签图 c c c(每个标签映射都是 c i c_i ci),其中 c c c是为了确保记忆骨干 φ m \varphi_m φm学习到真实目标特征的一致性,而不是分心物和杂乱的背景信息。具体来说,对于每一个记忆帧 m i m_i mi,我们在相应的地面真实边界框内为每个像素标注1,在其他地方标注0。然后,我们采用 $\varphi_m $的第一个卷积层(由 $\varphi^m_0 $表示)和一个额外的卷积层 g g g 分别将 m m m c c c 映射到相同的嵌入空间。之后,我们按元素方式添加 φ 0 m ( m ) \varphi^m_0(m) φ0m(m) g ( c ) g(c) g(c),然后将总和输入到 φ m \varphi_m φm的后几层以生成 T T T 个内存特征图(表示为 f m f_m fm,每个内存特征图为 f m i f_{mi} fmi )。然后通过非线性卷积层(表示为 h m h_m hm)将 f m f_m fm 的特征维数降低到 512:
f i m = h m ( φ γ m ( φ 0 m ( m i ) ⊕ g ( c i ) ) ) f_i^m=h^m(\varphi_\gamma^m(\varphi_0^m(m_i)\oplus g(c_i))) fim=hm(φγm(φ0m(mi)g(ci)))
其中 f i m ∈ R C × H × W f_i^m\in\mathbb{R}^{C\times H\times W} fimRC×H×W φ γ m \varphi^m_\gamma φγm表示 φ m \varphi^m φm的所有层,除了第一层,“⊕”是逐元素相加。

Query Feature Extraction

与内存分支不同,查询分支以查询帧 q q q作为输入并产生特征图 φ q ( q ) \varphi^q(q) φq(q)。与内存分支类似, φ q ( q ) \varphi^q(q) φq(q) 的特征维度也通过非线性卷积层(表示为 h q h^q hq )降低到 512:
f q = h q ( φ q ( q ) ) f^q=h^q(\varphi^q(q)) fq=hq(φq(q))
其中 f q ∈ R C × H × W f^q \in \mathbb{R}^{C \times H \times W} fqRC×H×W

请注意,两个主干 φ m \varphi^m φm φ q \varphi^q φq 共享相同的网络架构,但具有不同的参数。

1.3、Space-time Memory Network

如图3所示,我们首先计算 f m f_m fm的每个像素与 f q f_q fq的每个像素之间的相似度,得到一个相似度矩阵 w ∈ R T H W × H W w\in \mathbb{R}^{THW \times HW} wRTHW×HW。受 [Non-local Neural Networks]的启发,我们期望相似度计算应用高斯函数。因此,我们使用 s o f t m a x softmax softmax 函数对 w w w进行归一化。例如,取一个元素 w i j w_{ij} wij,我们可以将 w i j w_{ij} wij正式表示为:
w i j = exp ⁡ [ ( f i m ⊙ f . j q ) / s ] ∑ ∀ k exp ⁡ [ ( f k m ⊙ f . j q ) / s ] w_{ij}=\frac{\exp\left[\left(f_i^m\odot f_{.j}^q\right)/s\right]}{\sum\limits_{\forall k}\exp\left[\left(f_k^m\odot f_{.j}^q\right)/s\right]} wij=kexp[(fkmf.jq)/s]exp[(fimf.jq)/s]
其中 i i i f m ∈ R T H W × H W f^m \in \mathbb{R}^{THW \times HW} fmRTHW×HW上每个像素的索引, j j j f q ∈ R C × H W f^q\in \mathbb{R}^{C \times HW} fqRC×HW上每个像素的索引,二进制算子 ⊙ \odot 表示向量点积。这里 s s s 是一个比例因子,以防止 e x p exp exp 函数在数值上溢出。我们将 s s s 设置为 C \sqrt{C} C ,其中 C C C f m f^m fm的特征维度。

然后,把 w w w当作一个软权重图,我们把 f m f^m fm乘以 w w w。因为 f m f^m fm存储与目标相关的所有历史记忆信息,所以根据查询框架本身的需要,自适应地检索存储在 f m f^m fm中的目标信息。很明显,读出的信息是一个与 f q f^q fq相同大小的特征图。因此,我们将读出信息和查询特征映射 f q f^q fq 沿通道维度连接起来,生成最终的合成特征图 y y y。形式上,对于 y y y 的第 i i i 个元素,时空内存读取操作可以表示为:
y i = const ( f i q , ( f m ) i T ⊗ w ) y_i=\text{const}\left(f_i^q,\left(f^m\right)_i^T\otimes w\right) yi=const(fiq,(fm)iTw)
其中 ( f m ) T ∈ R C × T H W (f^m)^T\in\mathbb{R}^{C\times THW} (fm)TRC×THW f m f^m fm 的转置, c o n c a t ( ⋅ , ⋅ ) concat(·,·) concat(⋅,⋅) 函数表示连接操作。乍一看,内存读取操作的工作机制类似于非局部自注意力(Non-local Neural Networks)。在视觉跟踪中部署非局部自我注意(Non-local Neural Networks)的一个代表性例子是AlphaRefine,实时跟踪挑战VOT-RT2020的获胜者,使用非本地块来增强由像素级相关产生的响应图,因为较长距离的依赖关系可以产生更精确的目标边界决策信息。不同的是,在我们提出的框架中设计时空记忆阅读器的目的是通过将相似度矩阵作为软权重从多个记忆帧中检索目标信息,而不是计算特征图中每个像素的非局部自我注意。

特别是,与视频对象分割中的STMVOSGraghMemVOS不同,我们的方法不将 φ m \varphi^m φm φ q \varphi^q φq提取的特征划分为键和值,而是直接使用 f m f^m fm f q f^q fq来定位目标。动机是,当目标受到查询框架中部分遮挡时, f m f^m fm本身碰巧提供足够的目标信息来寻找目标的暴露部分。这种差异使得时空记忆网络更适合单目标跟踪任务。

1.4、Head Network

在物体检测中,单阶段无锚检测器比单阶段基于锚的方法取得了更好的性能和更少的参数,受此启发,我们设计了一个无锚头网络,它包含一个分类分支,将目标从背景中分类,以及一个无锚回归分支,直接估计目标边界盒。

具体来说,首先,我们使用轻量级分类卷积网络 $\omega_{cls} $对 y y y 进行编码,以整合 f q f^q fq 和从 f m f^m fm 检索到的信息以适应分类任务。然后,使用具有 1 × 1 核的线性卷积层将 ω c l s \omega_{cls} ωcls 的输出的维数降低到 1,产生最终的分类响应 R c l s ∈ R 1 × H × W R^{cls}\in\mathbb{R}^{1\times H\times W} RclsR1×H×W

此外,我们观察到目标边界附近的正样本倾向于预测低质量的目标边界框。因此,在 ω c l s \omega_{cls} ωcls 之后进行子分支以生成中心响应图 R c t r ∈ R 1 × H × W R_{ctr} \in \mathbb{R}^{1×H×W} RctrR1×H×W,如图 2 的右侧所示。在推理过程中, R c l s R_{cls} Rcls乘以 R c t r R{ctr} Rctr来抑制远离目标中心的像素的分类置信度分数。

在回归分支中,我们将 y y y 传递给另一个轻量级回归卷积网络 ω r e g \omega_{reg} ωreg,然后将输出特征的维数降低到 4 4 4,以生成用于目标边界框估计的回归响应图 R r e g ∈ R 4 × H × W R_{reg} \in \mathbb{R}^{4×H×W} RregR4×H×W

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Color-based model-free tracking is a popular technique used in computer vision to track objects in video sequences. Despite its simplicity, it has demonstrated high accuracy and robustness in various applications, such as surveillance, sports analysis, and human-computer interaction. One of the key advantages of color-based model-free tracking is its real-time performance. Unlike model-based tracking, which requires complex training and computation, color-based tracking can be implemented using simple algorithms that can run in real-time on low-power devices. This makes it suitable for applications that require fast response time, such as robotics and autonomous systems. Another advantage of color-based tracking is its ability to handle occlusions and partial occlusions. Since color features are less sensitive to changes in lighting and viewing conditions, the tracker can still maintain its accuracy even when the object is partially hidden or obstructed by other objects in the scene. Critics of color-based tracking argue that it is not effective in complex scenes where the object of interest may have similar colors to the background or other objects in the scene. However, recent advancements in machine learning and deep learning have enabled the development of more sophisticated color-based tracking algorithms that can accurately detect and track objects even in challenging scenarios. In summary, color-based model-free tracking is a simple yet effective technique for tracking objects in video sequences. Its real-time performance, robustness, and ability to handle occlusions make it a popular choice for various applications. While it may not be suitable for all scenarios, advancements in machine learning are making it more effective in complex scenes.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值