本文链接：https://blog.csdn.net/qq_41439608/article/details/118155439

STMTrack学习笔记

1.拟解决问题

当下非常流行的Siamese网络模型，固定第一帧为目标模板，针对模板来作匹配，然而这使得模型应对目标外观变化的能力很差，随后人们提出了使用模板更新策略使得模型能够更好的适应目标外观的变化，然而它需要更多的计算资源，从而使得跟踪器达不到实时跟踪。

2.贡献

a.提出了一种新的端到端的基于记忆的跟踪框架，它不仅像离线训练的Siamese网络那样简单高效，而且对复杂的模板更新策略具有很强的适应性。
b.提出的跟踪框架不在遵循原有的基于模板的跟踪演变路径，为今后开发更多的基于时空存储器的跟踪器提供了启发。
c.在视觉跟踪中引入了一种基于像素级相似度计算的记忆机制，使跟踪器具有更强的鲁棒性，相较于以往使用特征图进行的互相关的高性能方法，该方法可以生成更准确的目标包围盒。
d.提出的跟踪器以37帧/秒实时运行，在OTB-2015、TrackingNet、LaSOT和GOT-10k数据集上性能优于最先进的实时方法。

3.网路结构

在这里插入图片描述该框架分为特征提取网络、时空记忆网络和头部网络三个部分。
整体步骤:
a.首先通过特征提取网络提取特征，其中特征提取网络由记忆分支(浅绿色)和查询分支(浅蓝色)组成，记忆分支将记忆帧和相应的前景-背景标签映射作为输入，而查询分支的输入仅是一个查询帧。
b.特征提取后，时空记忆网络从所有记忆的特征中检索与目标相关的信息，生成综合特征图。
c.根据得到综合特征图从背景中分类目标并预测查询帧的目标预测框。

3.1 特征提取网络

3.1.1 记忆特征提取

其中引入前背景标签的目标是学习真实目标的一致性，而不是干扰物和杂乱的背景信息。
具体步骤:
a.给定T个记忆帧m以及T个前背景标签图c，其中前背景标签图是将原始图像中ground truth bounding box中的像素标记为1，其他位置标记为0，之后分别在特征提取器的第一个卷积层提取出来的特征上加上前背景标签(需要通过卷积使其与提取特征的大小一致)，之后卷积层保持不变。
b.得到上面的特征后，通过非线性卷积层将其维数降至512,最后将记忆帧的特征进行结合。

数学表达如下:
在这里插入图片描述

3.1.2 查询特征提取

查询特征提取和记忆特征提取的区别在于它是直接对图片进行特征提取，之后的操作和记忆特征提取一样。

数学表达如下:
在这里插入图片描述

3.2 时空记忆网络

在这里插入图片描述
具体步骤:
a.根据记忆帧特征和查询帧特征计算出相似矩阵，并使用softmax进行归一化，公式表达如下:

其中s是一个尺度因子防止exp函数数值溢出。
b.将相似度矩阵和记忆帧特征进行矩阵相乘得到满足查询特征需要的目标信息，之后将查询特征和查询到的目标信息特征进行拼接得到最终的合成特征图，公式表示如下:
在这里插入图片描述
动机:当目标在查询框中遭受部分遮挡时，记忆帧本身恰好提供足够的目标信息来找到目标暴露的部分。

3.3 头网络

3.3.1 分类分支

将上面特征送入到一个轻量级分类网络中，然后通过一个1×1的卷积核降低其维度为1，从而得到分类得分图，由于靠近目标边界的正样本倾向于预测低质量的目标边界盒，之后用通过中心度得分图和分类得分图相乘来抑制远离目标中心像素的分类得分图。

3.3.2 回归分支

将上面得到的特征送入到轻量级回归网络中之后通过一个1×1卷积降低其维度到4从而得到了回归响应图。

3.4 推理阶段

推理阶段的记忆帧的个数与训练过程中记忆帧数是无关的。
文中介绍了关于记忆帧的选取，由于在视频跟踪中第一帧和前一帧的目标信息对当前帧中的目标定位起着重要的作用，其中第一帧的目标提供了最可靠的信息，前一帧的被跟踪目标与当前帧的目标具有相似的外观，因此在本文中提出了一种记忆帧的采样方法，当在t时刻时候，假设需要N个记忆帧，保留第一帧和前一帧还剩下N-2帧，将历史帧分割为N-2段，并从每一段中选择一个有代表性的帧，以在目标域自适应、欠拟合和时间开销之间取得最佳平衡，数学表达如下：
在这里插入图片描述
其中 $_i∈ [0,1]$ 表示在第i段帧的偏移量。

4.消融实验

a.对GOT-10k基准的消融研究
在这里插入图片描述

b.不同参考帧数下的GOT-10k训练效果

c.在推理阶段不同参考帧数的TrackingNet上的成功(AUC)度量性能

5.实验结果

OTB-2015：
在这里插入图片描述
TrackingNet：

GOT-10k：
下图显示了我们的跟踪器与其他竞争跟踪器在LaSOT测试集上的比较

在UAV123的成功(AUC)指标上，我们的追踪器与其他竞争方法进行了比较
我们的追踪器与最先进的追踪器在VOT2018上的比较
在这里插入图片描述