SiamFC全文翻译：Fully-Convolutional Siamese Networks for Object Tracking

最新推荐文章于 2024-07-31 14:59:58 发布

一颗仙桃儿

最新推荐文章于 2024-07-31 14:59:58 发布

阅读量2.3k

点赞数 5

文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/qq_40310050/article/details/108030681

版权

本文探讨了使用全卷积孪生网络进行对象跟踪的方法，解决了传统在线学习方法在模型丰富性上的局限。通过在ILSVRC15数据集上进行端到端训练，提出的跟踪器实现了超越实时帧率的性能。实验表明，这种方法在多个基准测试中达到最先进的结果，同时展示了在不同领域间的泛化能力。

摘要由CSDN通过智能技术生成

摘要

传统上，通过使用视频本身作为唯一的训练数据，专门在线上学习对象外观模型，可以解决任意对象跟踪的问题。
尽管这些方法取得了成功，但仅在线方法固有地限制了他们可以学习的模型的丰富性。近来，已经进行了一些尝试来利用深度卷积网络的表达能力。但是，如果事先不知道要跟踪的对象，则必须在线执行随机梯度下降以适应网络的权重，从而严重损害系统的速度。
在本文中，我们为基本跟踪算法配备了在ILSVRC15数据集上进行端到端训练的新型全卷积孪生网络，用于视频中的目标检测。
我们的跟踪器以超出实时的帧速率运行，尽管极其简单，但可以在多个基准测试中实现最先进的性能。

关键字：对象跟踪，孪生网络，相似性学习，深度学习

1.Introduction

我们考虑跟踪视频中任意对象的问题，其中对象仅由第一帧中的矩形标识。
由于可能要求该算法跟踪任意对象，因此不可能已经收集了数据并训练了特定的检测器。

多年来，这种情况下最成功的范例是使用从视频本身中提取的示例以在线方式学习对象外观的模型[1]。这在很大程度上归功于TLD [2]，Struck [3]和KCF [4]等方法的证明能力。但是，使用仅来自当前视频的数据的明显缺陷是只能学习相对简单的模型。虽然计算机视觉中的其他问题已经看到越来越广泛地采用从大型监督数据集训练而来的深度卷积网络（conv-net），但监督数据的稀缺性和实时操作的限制阻止了深度学习在这种每视频学习一个检测器的范式中的天真应用。

最近的几项工作旨在使用预先训练的深度转换网络克服这一限制，该网络是为不同但相关的任务而学习的。
这些方法要么使用网络的内部表示作为特征[5,6]，要么应用“浅层”方法（例如，相关过滤器），或者执行SGD（随机梯度下降）来微调网络的多层[7,8,9]。虽然使用浅层方法不能充分利用端到端学习的优势，但是在跟踪过程中应用SGD来实现最新结果的方法仍无法实时运行。

我们提倡一种替代方法，其中在初始离线阶段训练深度卷积网络以解决更一般的相似性学习问题，然后在跟踪期间简单地在线评估此功能。

本文的主要贡献在于证明该方法在现代跟踪基准测试中以远远超过帧速率要求的速度获得了非常有竞争力的性能。具体来说，我们训练了一个孪生网络以在更大的搜索图像中定位示例图像。进一步的贡献是相对于搜索图像完全卷积的新颖孪生体系结构：通过计算其两个输入的互相关性的双线性层实现了密集而有效的滑动窗口评估。

我们认为，相似性学习方法已被相对忽略，因为跟踪社区无法访问大量的标签数据集。实际上，直到最近，可用的数据集仅包含数百个带注释的视频。
但是，我们认为，视频中用于对象检测的ILSVRC数据集的出现[10]（以下称为ImageNet Video）使训练这种模型成为可能。此外，培训和测试深度模型以使用来自同一域的视频进行跟踪的公平性是一个有争议的问题，最近VOT委员会已禁止这样做。我们展示了我们的模型可以从ImageNet视频域推广到ALOV / OTB / VOT [1,11,12]域，从而可以将跟踪基准的视频保留用于测试目的。

2、Deep similarity learning for tracking

使用相似性学习可以解决学习跟踪任意对象的问题。我们建议学习一个函数f（z，x），该函数将示例图像z与相同大小的候选图像x进行比较，如果两个图像描述了相同的对象，则返回高分，否则返回低分。
为了找到对象在新图像中的位置，我们可以穷尽所有可能的位置并选择与对象的过去外观具有最大相似度的候选对象。在实验中，我们将简单地使用对象的初始外观作为示例。函数f将从具有标记对象轨迹的视频数据集中学习。

考虑到它们在计算机视觉领域的广泛成功[13,14,15,16]，我们将使用深层卷积网络作为函数f。深度卷积网络的相似性学习通常使用孪生体系结构解决[17,18,19]。孪生网络将相同的变换an应用于两个输入，然后根据f（z，x）= g（ϕ（z），ϕ（x））使用另一个函数g组合其表示。当函数g是简单距离或相似性度量时，函数ϕ可被视为嵌入。深度孪生卷积网络先前已应用于诸如面部验证[18,20,14]，关键点描述符学习[19,21]和单发字符识别[22]之类的任务。

在这里插入图片描述

图1：完全卷积连体结构。我们的体系结构相对于搜索图像x是完全进化的，输出的是一个标量值的分数映射，其维数取决于搜索图像的大小。这使得在一次评估中可以计算搜索图像中所有已翻译子窗口的相似性函数。在这个例子中，分数图中的红色和蓝色像素包含对应子窗口的相似性。最好的颜色。

个人阅读及理解：
对于这个图的理解，Z为模板图片，也就是第一帧的GT。
x是后面的待跟踪帧中的候选框搜索区域。
ϕ代表的是一种特征映射操作，
6 6 128代表z经过ϕ后得到的特征，是一个128通道6*6大小特征
22 22 128是x经过ϕ后的特征
代表卷积操作，得到一个17^17的score map，代表着search region中各个位置与模板相似度值。