【目标跟踪 SOT】SiamFC -用于对象跟踪的全卷积孪生网络

最新推荐文章于 2024-05-29 09:52:43 发布

大胃羊

最新推荐文章于 2024-05-29 09:52:43 发布

阅读量3.7k

点赞数

分类专栏：经典论文速读文章标签：网络深度学习计算机视觉目标跟踪

本文链接：https://blog.csdn.net/davidyang_980/article/details/121921473

版权

经典论文速读专栏收录该内容

7 篇文章 4 订阅

订阅专栏

SiamFC - 全卷积孪生网络

$背景知识

SOT（单目标跟踪）和MOT（多目标跟踪）的思想是，在视频中的某一帧中框出你需要跟踪目标的bounding box，在后续的视频帧中，无需你再检测出物体的bounding box进行匹配，而是通过某种相似度的计算，寻找需要跟踪的对象在后续帧的位置
孪生网络siamese network衡量两个输入的相似程度，将两个输入给到两个神经网络，但两个神经网络共享权重，这两个神经网络分别将输入映射到新的空间，形成输入在新的空间中的表示。

$方法论总结

1. SiamFC 孪生网络

a). 孪生网络的一个输入为模板图像 $z ， 127 \times 127 \times 3$ （也就是标记的样本图像），另一个输入为搜索图像 $x ， 255 \times 255 \times 3$ ，在 $x$ 上会有限制大小的搜索区域（看第三步的卷积核和特征图），经过变换和内积得到与样本 $z$ 的相似度
b). 其中变换/特征提取使用的是AlexNet，也就是是 $\varphi$
c). 互相关运算 $\text { * }$ ，实际上就是以 $\varphi(x)$ 为特征图。以 $\varphi(z)$ 为卷积核，进行卷积互运算。
d). 最终得到大小为 $17 \times 17 \times 3$ 的score map，这个过程和卷积的计算过程是一致的

2.训练与跟踪

a). 预测值（输出）和真实值（输入label）之间的损失函数。
b). 实际截取的时候，模板图像 $z$ 包含一些环境信息和padding，上下左右都加上 $p$ 个像素的信息，所以最后还要乘上一个缩放系数 $s$ 使得大小保持127
c). 图中的Resize操作有一个关键点，每对模板图像和搜索图像中心就是物体的bounding box中心，这样可以使得模板划到搜索图像中心的时候，就会有最大相似度。
在这里插入图片描述
d). 损失函数使用的是logisitic loss ，计算预测的scores map和真实的scores map中所有对应点的损失和，然后取平均即可。
e). **跟踪：**将网络输出的scores map通过插值的上采样法，将scores map从17x17放大至272x272

摘要

任意目标追踪问题的传统方法一般是基于在线学习的方法，只使用训练视频本身的数据，但这种方法限制了可以学习的模型的深度。虽然已经在深度神经网络上有了尝试，但是当无法提前知道需要追踪那个目标时，就需要Stochastic Gradient Descent 来改善网络的权重，极大的影响了整个系统的速度。在本文中提出了一个新的端到端全卷积孪生网络(Fully- Convolutional Siamese Network)，使用ILSVRC15数据集进行训练及网络评估。我们的网络以实时的帧频运行，尽管其网络极其简单，但在一些基准测试中实现了最优秀的性能。

简介

项目解决的问题是跟踪视频种的任意物体，并用矩形框标注出来，并且这些物体的信息都不是提前收集的。

传统方法通常使用从视频种提取出的例子来学习物体的特征模型，例如 TLD [2], Struck [3] and KCF [ 4].。但是使用当前视频获得的数据的一个明显缺陷是，只能学习相对简单的物体models。而计算机视觉中的另一个方向是基于有监督的数据集（supervised datasets）来训练深度神经网络。但是有监督数据的稀缺性和实时操作的要求，限制了对于在单个视频条件下，深度学习方法学习出一个有效的检测器的良好效果。

近期的工作倾向于使用与训练的网络来学习不同但相关的任务。这些方法都应用一些“shallow（作者应该是想表达这些方法就像挠痒痒一样，笑）”方法（例如相关的滤波），使用网络的内部表示作为特征[5，6]，或者通过SGD（随机梯度下降）来微调（Fine-tune）网络层[7-9]。

我们提出来的方法：在初始离线阶段训练一个深度网络来解决比较普遍的相似学习问题（similarity learning）。具体来说，我们训练了一个孪生网络来定位长搜索图像中样本图像。另一个贡献是一个用于搜索图像全卷积的新孪生网络结构：密集和有效的滑动窗口评估（sliding -window evaluation），是通过计算其两个输入的互相关相关的线性层（bilinear layer）来实现的。

我们假设详细学习因为目标追踪舍却没有大量标注的数据集被忽视了，

2 跟踪中的深度相似学习

使用相似学习可以解决学习跟踪任意物体的问题。

f (z, x) ，其中f表示学习函数，z是样本图像，x是候选图像，输出是score，分高score和低score。
全卷积孪生网络结构
鉴于计算机视觉中深度网络的成功，深度网络将作为函数f，而使用孪生结构可以很好的解决深度网络的相似学习问题。孪生网络使用两个恒等变化分别对输入进行处理，然后使用零个函数g对特征进行融合。如果是简单的距离或者相似度的评估时，这个恒等变换可以考虑为是embedding（隐藏的）。而深度孪生网络在人脸验证、关键点特征[19，21]和一次字符识别[22]等任务。

2.1 全卷积孪生结构

对于候选图像x来说，是全卷积的，也就是commutes with tanslation
全卷积
全卷积网络的优势在于，我们可以向网络提供更大的搜索图像作为输入，而不是相同大小的候选
图像，它将在单个密集网格中计算所有平移子窗口的相似性评估。为了实现这一点，我们使用卷积嵌入函数，并且使用一个cross-correlation layer来合并所有的特征结果。
跟踪搜索
在跟踪过程中，我们使用以目标先前位置为中心的搜索图像。最大分数相对于分数图中心的位置，乘以网络的步幅，给出目标在帧与帧之间的位移。在单个前向通过中搜索多个尺度，组装小批量缩放图像。
互相关
使用互相关组合特征图并在较大的搜索图像上评估网络，在数学上等同于使用内积组合特征图并独立评估每个平移子窗口上的网络。然而，互相关层提供了一种非常简单的方法，可以在现有conv- net库的框架内有效地实现此操作。虽然这在测试期间显然很有用，但它也可以在训练期间加以利用。

2.2 大搜索图像的训练

损失函数：
在这里插入图片描述
其中v是对于单个样本候选对的真实评估分数（real-valued score），y是也就是相应点的真实标签（groud-truth lable）

嵌入卷积网络的结构：
在这里插入图片描述

3 相关工作

最近的一些工作试图训练递归神经网络(RNNs)来解决目标跟踪问题。Gan等人。[25]j训练RNN预测目标在每一帧中的绝对位置，Kahou等人提出。 [26]类似地，使用可区分的注意机制训练RNN用于跟踪。这些方法还没有展示好胜在现代基准上的结果，但它肯定是未来研究的一个有前途的途径。我们注意到，通过将違罗网络解释为在长度为2的序列上训练和评估的展开的RNN,可以在这种方法和我们的方法之间画出一个有趣的相似之处。因此，違罗网络可以作为递归模型的强初始化。

Denil等人[27]使用粒子过滤追踪对象。该粒子使用学习的距离（learnt distance metric）将当前外观与第一帧的外观进行比较。然而，他们的距离度量与我们的大不相同。他们不是比较整个物体的图像，而是计算注视（fixations）之间的距离(物体边界框内小区域的凹陷一瞥）。为了学习距离度量，他们训练了一个RBM网络，并使用两盒隐藏激活之间的欧式距离来得到两个fixations。尽管RBM 是无人监督的，但他们建议对 RBM 进行训练，可以让在待检测对象的中心图像内进行随机fixations。这必须在了解要追踪对象的情况下在线执行或在离线阶段执行。在跟踪一个物体的同时，他们学习-种随机策略来选择特定于该物体的注视，使用不确定性作为奖励信号。除了MNIST数字的合成序列外,该方法仅在人脸和人物跟踪问题上得到了定性的证明。

虽然不可能为每个新视须从头开始训练一个深卷积网，但一些工作已经研究了在测试时从预先训练的参
数进行微调的可行性。SO-DLT[7]和MDNet[9]都在离线阶段为类似的检测任务训练卷积网络，然后在测试时使用SGD通过从视频本身提取的示例来学习检测器，这与传统的跟踪即检测器学习模式相同。在许多实例中，由于计算前向和后向传递的计算负担，这些方法不能以帧速率运行。利用卷积网络进行跟踪的另一种方法是应用传统的浅层方法，使用预训练卷积网络的内部表示作为特征。而这种风格的跟踪器，例如DeepSRDCF [6]，Ma等人。[5] 和FCNT [8]取得了很好的效果，但由于conv-net表示的维度相对较高，它们无法实现帧速率操作。

与我们的工作同时，其他一些作者也提出了通过学习图像对的函数来使用卷积网进行目标跟踪。Hold等人的研究成果[28]引入GOTURN, 通过训练个卷积网，直接从两幅图像回归到第一幅图像中物.体在第二幅图像中的位置。预测一个矩形而不是一个位置的优点是可以处理比例和纵横比的变化，而无需进行详尽的评估。然而，他们的方法的一个缺点是它对第二个图像的平移不具有内在的不变性。这意味着网络必须在所有位置显示示例，这是通过大量数据集增强来实现的。Chen等人[29]训练将样本和更大的搜索区域映射到响应图的网络。然而，由于最终层是完全连通的，他们的方法对第二幅图像的平移也缺乏不变性。与Held等人类似，这是低效的，因为训练集必须表示所有对象的所有翻译。他们的方法被命名为YCNN，因为网络的Y形。与我们的方法不同，它们不能在训练后动态调整搜索区域的大小。陶等人的研究成果[30]建议训练暹罗网络来识别与初始物体外观匹配的候选图像位置，将其方法命名为SINT(暹罗实例搜索跟踪器)。与我们的方法不同的是，它们不采用相对于搜索图像是完全卷积的体系结构。相反，在测试时，他们在不同半径的圆上均匀地采样边界框，如Struck[3]。此外，他们结合了光流和边界框回归来改进结果。为了提高运行速度，他们部署了RoI pooling来是的多个小窗口的检测更有效，差不多可以做到每秒2帧，但是距离实时仍然有距离。

reference

https://blog.csdn.net/u013187057/article/details/84893307
https://zhuanlan.zhihu.com/p/148408286

大胃羊

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【目标跟踪 SOT】SiamFC -用于对象跟踪的全卷积孪生网络

SiamFC - 全卷积孪生网络摘要任意目标追踪问题的传统方法一般是基于在线学习的方法，只使用训练视频本身的数据，但这种方法限制了可以学习的模型的深度。虽然已经在深度神经网络上有了常识，但是当无法提前知道需要追踪那个目标时，就需要Stochastic Gradient Descent 来改善网络的权重，极大的影响了整个系统的速度。在本文中提出了一个新的端到端全卷积孪生网络(Fully- Convolutional Siamese Network)，使用ILSVRC15数据集进行训练及网络评估。我们的网络
复制链接

扫一扫