【论文学习】《Fully-Convolutional Siamese Networks for Object Tracking》2016年SiamFC 全卷积孪生网络用于目标跟踪

豹击长空

已于 2025-04-03 15:44:29 修改

阅读量1.6k

点赞数 12

分类专栏：目标跟踪文章标签：目标跟踪人工智能计算机视觉

于 2024-07-31 14:59:58 首次发布

本文链接：https://blog.csdn.net/SkyLeopard/article/details/140717543

版权

目标跟踪专栏收录该内容

5 篇文章

订阅专栏

《Full Convolutional Siamese Networks for Object Tracking》简称“SiamFC”，目标跟踪孪生网络出自2016年，Siam成为之后在目标跟踪任务的一个类别。2018年商汤在VOT比赛中使用SiamRPN获得了第一。

论文地址：ECCV2016版、arXiv版

概要：

论文出自2016年，在此之前，还没有实时的基于孪生网络的目标跟踪方法，存在的孪生实例搜索跟踪器（SINT）方法使用了复杂计算的候选框定位目标。SiamFC的创新则与2015年出现的FCN类似，直接对图像进行全卷积让网络输出分值MAP，得到目标所在区域。然而，不同之处是孪生网络中，是对输入样例和搜图图进行卷积操作后，以输入样例的特征图作为卷积核，再对搜索图像的特征图进行卷积，最后得到目标位置分值图。注意的是，目标的检测是在多尺度下进行的，得到的目标也只有个中心位置，不知道边界，因此存在1、计算量稍大（比这之前方法的速度是大大提升的）2、边界框不准确，的可观问题。从而后续有SiamFPN的改进。

【一、翻译部分】

摘要：任意物体追踪问题传统上是通过在线学习物体外观模型来解决的，使用视频本身作为唯一的训练数据。尽管这些方法取得了成功，但它们的在线方式本质上限制了它们可以学习的模型的丰富性。最近，人们尝试过多次利用深度卷积网络的表达能力。然而，当事先不知道要跟踪的对象时，就需要在线执行随机梯度下降来调整网络的权重，这严重影响了系统的速度。在本文中，我们为基本跟踪算法配备了一种新颖的全卷积孪生网络，该网络在 ILSVRC15 数据集上进行端到端训练，用于视频中的对象检测。我们的追踪器以超越实时的帧速率运行，尽管极其简单，但在多个基准测试中实现了最先进的性能。

关键词：目标跟踪；孪生网络；相似性学习；深度学习

1 引言

我们考虑到在视频中跟踪任意对象的问题中，对象仅在第一帧画面的矩形框中被标识。由于算法可能被要求跟踪任意物体，因此不可能事先收集了数据（矩形框中的对象数据）并训练了特定的检测器。

多年来，这种场景最成功的范例是使用从视频本身中提取的示例（参照样本），以在线方式学习物体外观的模型。这在很大程度上归功于TLD，Struck和KCF等方法的能力。然而，仅使用来自当前视频的数据的明显缺陷是只能学习相对简单的模型。尽管计算机视觉中的其他问题已越来越广泛地采用由大型监督数据集训练的深度卷积网络 (简称“conv-nets”)，但监督数据的稀缺性和实时操作的限制阻碍了深度学习在这种为每个视频学习一个检测器的范式中的简单应用。

最近有几项研究旨在使用针对不同但相关的任务学习的预训练深度卷积网络来克服这一限制。这些方法要么应用“浅层”方法（例如相关滤波器），使用网络的内部表示作为特征，要么执行 SGD（随机梯度下降）来微调网络的多个层。虽然使用浅层方法没有充分利用端到端学习的优势，但在跟踪过程中应用 SGD 来实现了最佳结果的方法，但却无法实时运行。

我们提倡一种替代方法，即在初始离线阶段训练深度卷积网络来解决更一般的相似性学习问题，然后在跟踪期间简单地在线评估该函数。本文的主要贡献是证明这种方法在现代跟踪基准中以远远超过帧速率要求的速度实现了非常有竞争力的性能。具体来说，我们训练了一个孪生网络来在更大的搜索图像中定位示例图像。另一个贡献是一种新颖的孪生架构，它对于搜索图像是完全卷积的：使用双线性层计算其两个输入的互相关来实现密集而高效的滑动窗口评估。

我们认为相似性学习方法相对被忽视了，因为跟踪社区没有大量带标签的数据集。事实上，直到最近，可用的数据集才只包含几百个带注释的视频。然而，我们认为，用于视频中物体检测的 ILSVRC 数据集（下称 ImageNet Video）的出现使得训练这样的模型成为可能。此外，使用来自同一领域的视频来训练和测试用于跟踪的深度模型的公平性是一个争议点，因为 VOT 委员会最近禁止这样做。我们表明，我们的模型从 ImageNet Video 领域推广到 ALOV/OTB/VOT领域，使得跟踪基准的视频可以保留用于测试目的。

2 深度相似性学习用于跟踪

可以使用相似性学习来学习跟踪任意对象。我们建议学习一个函数 f (z, x)，该函数将样本图像 z 与相同大小的候选图像 x 进行比较，如果两幅图像描绘的是同一对象，则返回高分，否则返回低分。为了在新图像中找到对象的位置，我们可以穷举所有可能的位置，并选择与对象过去外观最相似的候选位置。在实验中，我们将简单地使用对象的初始外观作为样本。函数 f 将从带有标记对象轨迹的视频数据集中学习。

鉴于其在计算机视觉领域的广泛成功，我们将使用深度卷积网络作为函数 f。深度卷积网络的相似性学习通常使用孪生架构来解决。孪生网络对两个输入应用相同的变换 φ，然后根据 f (z, x)=g(φ(z),φ(x)) 使用另一个函数 g 组合它们的表示。当函数 g 是简单的距离或相似性度量时，函数 φ 可以被视为嵌入。深度孪生卷积网络以前曾应用于人脸验证、关键点描述符学习和一次性字符识别等任务。

2.1 全卷积孪生网络结构

相似性计算示意图 — 图1 全卷积孪生架构。我们的架构对于搜索图像 x 是全卷积的（此处 x尺寸是大于 z的，一次全卷积将所有穷举或滑动窗口的结果都计算了）。输出是一个标量值分数图，其维度取决于搜索图像的大小。这使得可以在一次评估中为搜索图像内的所有平移子窗口计算相似度函数。在此示例中，分数图中的红色和蓝色像素包含相应子窗口的相似度。最佳彩色视图（在线彩色图）

我们提出了一种孪生架构，它对于候选图像 x 是全卷积的。如果一个函数可以平移，我们就称它为全卷积函数。为了给出更精确的定义，引入Lt来表示平移算子 (Lt x)[u]=x[u-t]，如果满足以下条件，则将信号映射到信号的函数h是具有整数步长k的全卷积函数，

对于任何平移t。（当 x 是有限信号时，这只需要对输出的有效区域成立。）

全卷积网络的优势在于，我们可以向网络提供更大的搜索图像作为输入，而不是相同大小的候选图像，并且它将在一次评估中计算密集网格上所有平移子窗口的相似度。为了实现这一点，我们使用卷积嵌入函数φ并使用互相关层组合生成的特征图，

其中 b1 表示在每个位置都取值 b ∈ R 的信号。该网络的输出不是单个分数，而是在有限网格 D⊂Z^2 上定义的分数图，如图1所示。请注意，嵌入函数的输出是具有空间支持的特征图，而不是纯向量。同样的技术已应用于当代立体匹配工作。

在跟踪过程中，我们使用以目标先前位置为中心的搜索图像。最大得分相对于得分图中心的位置乘以网络的步长，可得出目标在帧与帧之间的位移。通过组装一小批缩放图像，可以在一次前向传递中搜索多个尺度。

使用互相关组合特征图并在较大的搜索图像上评估一次网络在数学上等同于使用内积组合特征图并在每个平移子窗口上独立评估网络。但是，互相关层提供了一种非常简单的方法，可以在现有卷积网络库的框架内有效地实现此操作。虽然这在测试期间显然很有用，但它也可以在训练期间得到利用。

2.2 使用大搜索图像进行训练

我们采用判别方法，在正样本和负样本上训练网络，并采用逻辑损失，

其中 v 是单个“样本-候选”对的实值分数，y ∈ {+1, −1} 是其真实标签。我们在训练过程中利用由样本图像和较大的搜索图像组成的对，利用网络的全卷积特性。这将生成分数 v : D→R 的映射，从而有效地为每对生成许多示例。我们将分数图的损失定义为各个损失的平均值，

要求得分图中的每个位置 u ∈ D 都有一个真实标签 y[u] ∈{+1, −1}。卷积网络 θ 的参数是通过将随机梯度下降 (SGD) 应用于问题获得的

从带标注的视频数据集中通过提取以目标为中心的样例和搜索图像获得“对”（注意：两幅图都是以目标为中心点的），如图 2 所示。

**图 2.** 从同一视频中提取的训练对：来自同一视频的样例图像和对应的搜索图像。当子窗口超出图像范围时，缺失部分将用平均 RGB 值填充。

图像是从视频的两帧中提取的，这两帧都包含对象，并且相隔最多 T 帧。训练期间忽略对象的类别。对每幅图像中对象的比例进行归一化，而不会破坏图像的纵横比。如果得分图的元素位于中心半径 R 以内（考虑到网络的步幅 k），则认为它们属于正例

对分数图中正例和负例的损失进行加权，以消除类别不平衡。

由于我们的网络是全卷积的，因此不存在学习中心子窗口偏差的风险。我们认为考虑以目标为中心的搜索图像是有效的，因为最困难的子窗口以及对跟踪器性能影响最大的子窗口很可能是与目标相邻的子窗口。

请注意，由于网络是对称的 f (z, x)=f (x, z)，因此它实际上在样本中也是全卷积的。虽然这允许我们在理论上对不同的对象使用不同大小的样本图像，但我们假设大小统一，因为它简化了小批量实现。但是，这个假设将来可能会放宽。

2.3 ImageNet视频用于跟踪

2015 年 ImageNet 大规模视觉识别挑战赛 (ILSVRC) 引入了 ImageNet 视频数据集作为新视频对象检测挑战的一部分。参与者需要对 30 种不同类别的动物和车辆进行分类和定位物体。训练和验证集总共包含近 4500 个视频，总共超过一百万个带标注的帧。如果与 VOT、ALOV 和 OTB 中的标记序列数量相比，这个数字尤其令人印象深刻，它们总数不到 500 个视频。我们相信，这个数据集应该引起跟踪社区的极大兴趣，不仅因为它的规模庞大，还因为它描绘的场景和物体与标准跟踪基准中的不同。因此，它可以安全地用于训练深度跟踪模型，而不会过度拟合这些基准中使用的视频领域。

2.4 实践思考

数据集管理。在训练期间，我们采用 127 × 127 像素的样例图像和 255 × 255 像素的搜索图像。图像被缩放，使得边界框加上上下文的附加边距具有固定面积。更准确地说，如果紧密边界框的大小为 (w, h) 并且上下文边距为 p，则选择比例因子 s，使得缩放矩形的面积等于常数

我们使用样本图像的面积 A=1272，并将上下文量设置为平均尺寸 p =(w + h)/4 的一半。离线提取每帧的样本图像和搜索图像，以避免在训练期间调整图像大小。在本研究的初步版本中，我们采用了一些启发式方法来限制从视频中提取训练数据的帧数。对于本文的实验，我们使用了 ImageNet Video 的全部 4417 个视频，这些视频占了 200 多万个带标注的边界框。

网络结构。我们为嵌入函数 φ 采用的架构类似于 Krizhevsky 等人的网络的卷积阶段。参数和激活的维度如表1 所示。前两个卷积层之后采用最大池化。除了最后一层conv5之外，每个卷积层之后都采用ReLU非线性激活函数。在训练期间，批量归一化（BN）会立即插入到每个线性层之后。最终表示的步幅为8。该设计的一个重要方面是网络中没有引入填充（Padding）。虽然这是图像分类中的常见做法，但它违反了等式1的完全卷积性质。

跟踪算法。由于我们的目的是证明我们的全卷积孪生网络的有效性及其在 ImageNet Video 上训练时的泛化能力，我们使用一种极其简单的算法来执行跟踪。与更复杂的跟踪器不同，我们不会更新模型或保留过去出现的记忆，我们不加入光流或颜色直方图等额外线索，也不会使用边界框回归来改进我们的预测。然而，尽管它很简单，但当配备我们离线学习的相似性度量时，令人惊跟踪算法会取得讶的好结果。在线时，我们确实结合了一些基本的时间约束：我们只在大约四倍于其之前大小的区域内搜索对象，并在得分图中添加一个余弦窗口以惩罚较大的位移。通过处理搜索图像的几个缩放版本来实现通过尺度空间的跟踪。任何尺度变化都会受到惩罚，当前尺度的更新会受到抑制。

表1. 卷积嵌入函数的结构，类似于Krizhevsky等人[16]的网络的卷积阶段。通道图属性描述了每个卷积层的输出和输入通道的数量。

3 相关工作

最近有几项研究试图训练循环神经网络 (RNN) 来解决物体跟踪问题。Gan 等人训练 RNN 来预测每帧中目标的绝对位置，而 Kahou 等人也同样使用可微分注意机制训练 RNN 进行跟踪。这些方法尚未在现代基准上显示出有竞争力的结果，但它无疑是未来研究的一个有希望的途径。我们注意到，通过将孪生网络解释为在长度为2的序列上训练和评估的展开RNN，可以在这种方法和我们的方法之间找到有趣的相似之处。因此，孪生网络可以作为循环模型的强初始化。

Denil 等人使用粒子滤波器跟踪物体，该滤波器使用学习到的距离度量将当前外观与第一帧的外观进行比较。但是，他们的距离度量与我们的有很大不同。他们不是比较整个物体的图像，而是计算注视点（物体边界框内小区域的中央凹瞥见）之间的距离。为了学习距离度量，他们训练了受限玻尔兹曼机 (RBM)，然后使用两个注视点的隐藏激活之间的欧几里得距离。尽管 RBM 是无监督的，但他们建议在要检测的物体中心图像中的随机注视点上训练 RBM。这使得在线或离线阶段执行时都必须要了解被跟踪的物体。在跟踪物体时，他们会学习一种随机策略来选择特定于该物体的注视点，并使用不确定性作为奖励信号。除了 MNIST 数字的合成序列外，这种方法仅在面部和人物跟踪问题上得到了定性证明。

与我们的研究同步，其他一些作者也提出了使用卷积网络进行物体跟踪的方法，即通过学习“图像对”函数。Held等人介绍了GOTURN，其中训练了一个卷积网络，使其直接从两幅图像回归到第一幅图像中显示物体的第二幅图像中的位置。预测矩形而不是位置的优点是，无需进行详尽的评估，就可以处理比例和纵横比的变化。然而，他们的方法的一个缺点是，它不具备对第二幅图像平移的内在不变性。这意味着必须向网络展示所有位置的示例，这可以通过大量的数据集扩充来实现。Chen等人训练了一个网络，将样本和更大的搜索区域映射到响应图。然而，他们的方法也缺乏对第二幅图像平移的不变性，因为最后的层是全连接的。与Held等人类似，这是低效的，因为训练集必须代表所有物体的所有平移。他们的方法因网络形状为Y而被命名为YCNN。与我们的方法不同，他们无法在训练后动态调整搜索区域的大小。Tao 等人[30]建议训练一个孪生网络来识别与初始物体外观相匹配的候选图像位置，并将他们的方法称为SINT（孪生实例搜索跟踪器）。与我们的方法相比，他们没有采用对搜索图像完全卷积的架构。相反，在测试时，他们像在Struck [3] 中一样在不同半径的圆上均匀地采样边界框。此外，他们结合光流和边界框回归来改进结果。为了提高系统的计算速度，他们采用感兴趣区域（RoI）池化来有效地检查许多重叠的子窗口。尽管进行了这种优化，但在每秒2帧的速度下，整个系统仍然远未达到实时水平。

上述所有在视频序列上进行训练的竞争性方法（MDNet [9]、SINT [30]、GOTURN [28]）都使用与基准测试相同的ALOV/OTB/VOT域的训练数据。由于担心过度拟合基准测试中的场景和对象，这种做法在VOT挑战赛中被禁止。因此，我们工作的一个重要贡献是证明，无需使用与测试集相同分布的视频，就可以训练卷积网络进行有效的对象跟踪。

4 实验

4.1 实施细节

训练。使用MatConvNet[31]和简单的 SGD 最小化等式5 来找到嵌入函数的参数。参数的初始值遵循高斯分布，根据改进的Xavier方法[32]缩放。训练进行50个周期（epochs），每个周期由 50,000 个采样对组成（根据第 2.2 节）。使用大小为 8 的小批量估计每次迭代的梯度，并且学习率在每个周期从10^-2到10^-5进行几何退火（annealed geometrically 或说学习率的衰减）。

跟踪。如前所述，在线阶段刻意简化。初始对象外观的嵌入 φ(z) 仅计算一次，然后与后续帧的子窗口进行卷积比较。我们发现，通过简单的策略（例如线性插值）在线更新样本（的特征表示）不会获得太多性能，因此我们将其保持不变。我们发现，使用双三次插值对得分图进行上采样（从 17×17到272×272）可实现更准确的定位，因为原始图相对较粗。为了处理尺度变化，我们还在五个尺度1.025^{−2,−1,0,1,2}上搜索对象，并使用系数0.35的线性插值更新尺度以提供减幅。

为了使我们的实验结果具有可重复性，我们在www.robots.ox.ac.uk/∼luca/siamese-fc.html上分享了训练和跟踪代码以及精选的数据集和生成它的脚本。在配备单个NVIDIA GeForce GTX Titan X 和4.0GHz Intel Core i7-4790K的机器上，当分别在3个和5个尺度上进行搜索时，我们的完整在线跟踪管道以每秒86帧和58帧的速度运行。

4.2 评估

我们评估了我们的简单跟踪器的两个变体：SiamFC（Siamese FullyConvolutional）和SiamFC-3s，它搜索3个尺度而不是5个尺度。

4.3 OTB-13基准

OTB-13 [11] 基准考虑了不同阈值下每帧的平均成功率：如果跟踪器估计值与真实值之间的交并比 (IoU) 高于某个阈值，则表示跟踪器在给定帧中成功。然后比较跟踪器在不同阈值下的成功率曲线下面积。除了[11]报告的跟踪器之外，在图3中，我们还将其与主要计算机视觉会议上提出的七个较新的、可以以帧速率运行的最先进的跟踪器进行了比较：Staple[33]、LCT[34]、CCT[35]、SCT4[36]、DLSSVM_NU[37]、DSST[38] 和KCFDP[39]。考虑到序列的性质，对于这个基准，我们仅在训练期间将25%的“图像对”转换为灰度。所有其他超参数（用于训练和跟踪）都是固定的。

图3. OTB-13[11]基准的OPE（一次通过评估）、TRE（时间稳健性评估）和SRE（空间稳健性评估）的成功图。在撰写本文时，CCT、SCT4 和 KCFDP 的结果仅适用于 OPE。

4.4 VOT基准

在我们的实验中，我们使用了最新稳定版的视觉对象跟踪 (VOT) 工具包（标签vot2015-final），该工具包从356个序列中挑选出一个序列来评估跟踪器，这些序列的选择是为了很好地代表七种不同的挑战性情况。许多序列最初出现在其他数据集中（例如ALOV[1]和OTB[11]）。在基准测试中，跟踪器在失败五帧后自动重新初始化，当估计的边界框和地面真相之间的IoU变为零时被视为跟踪失败。

VOT-14结果。我们将我们的方法SiamFC（和变体SiamFC-3s）与参加2014年VOT挑战赛[40]的 10个最佳跟踪器进行了比较。我们还包括Staple[33]和GOTURN[28]，这两个最近的实时跟踪器分别在CVPR 2016和ECCV 2016上展示。跟踪器根据两个性能指标进行评估：准确度（accuracy）和稳健性（robustness）。前者以平均IoU计算，而后者以总失败次数表示。这些可以深入了解跟踪器的行为。图4显示了准确度-稳健性图，其中最佳跟踪器更靠近右上角。

VOT-15结果。我们还将我们的方法与2015年版[12]中的40名最佳参与者进行了比较。在这种情况下，准确度和失败次数的原始分数用于计算预期平均重叠度量，该度量表示在失败后没有重新初始化的平均IoU。图5说明了预期平均重叠的最终排名，而表 2 报告了挑战赛中排名最高的 15 个跟踪器的分数和速度。

VOT-16结果。在撰写本文时，2016年版本的结果尚未公布。但是，为了便于与我们的方法进行早期比较，我们报告了我们的分数。对于SiamFC和SiamFC-3s，我们分别获得了0.3876和0.4051的总体预期重叠（基线和无监督实验之间的平均值）。请注意，这些结果与VOT-16报告不同，因为我们参加挑战赛的作品是这项工作的初步版本。

尽管我们的方法很简单，但它比最近最先进的实时跟踪器有所改进（图3和4）。此外，它的表现优于具有挑战性的VOT-15基准中的大多数最佳方法，同时是唯一实现帧速率速度(满足实时)的方法（图5和表2）。这些结果表明，仅凭我们的全卷积孪生网络在ImageNet Video上学习到的相似性度量的表现力就足以实现非常强大的结果，这些结果可与最近的最先进方法相媲美或优于后者，而后者的速度通常要慢几个数量级。我们相信，通过使用跟踪社区经常采用的方法（例如模型更新、边界框回归、微调、记忆）来增强极简在线跟踪管道，可以获得更高的性能。

表2. 我们提出的方法和VOT-15挑战中表现最好的15个跟踪器的原始得分、重叠度和报告速度。如果可用，我们会与作者报告的速度进行比较，否则 (*) 我们会以EFO单位报告VOT-15结果[12]中的值，大致相当于fps（例如，NCC跟踪器的速度为140fps和160 EFO）

4.5 数据集大小

表3说明了用于训练孪生网络的数据集大小如何极大地影响性能。当数据集的大小从5%增加到 100%时，预期平均重叠度（在VOT-15上测量从0.168稳步提高到0.274。这一发现表明的视频，使用更大数据集可以进一步提高性能。事实上，即使 200 万个监督边界框看起来是一个巨大的数字，也不应该忘记它们仍然属于相对适中的视频数量，至少与通常用于训练卷积网络的数据量相比是如此。

表3. 使用增加的 ImageNet Video 数据集部分对跟踪器性能的影响。

5 总结

在这项工作中，我们脱离了跟踪中采用的传统在线学习方法，并展示了一种专注于在离线阶段学习强嵌入的替代方法。与在分类设置中的使用不同，我们证明，对于跟踪应用，孪生全卷积深度网络能够更有效地使用可用数据。这不仅反映在测试时，通过执行有效的空间搜索，也反映在训练时，其中每个子窗口都有效地代表一个有用的样本，而几乎没有额外的成本。实验表明，深度嵌入为在线跟踪器提供了自然丰富的特征来源，并使简单的测试时策略表现良好。我们相信这种方法是对更复杂的在线跟踪方法的补充，并期望未来的工作能够更彻底地探索这种关系。

**图6（不知在哪引用了）**. 在第2.4节中描述的简单跟踪器的快照，该跟踪器配备了我们提出的在ImageNet Video上从头开始训练的全卷积孪生网络。我们的方法不执行任何模型更新，因此它仅使用第一帧来计算 *φ(z)*。尽管如此，它对于许多具有挑战性的情况都具有惊人的稳健性，例如运动模糊（第2行）、外观的剧烈变化（第 1、3 和 4 行）、照明不足（第 6 行）和尺度变化（第 6 行）。另一方面，我们的方法对混乱的场景很敏感（第 5 行），这可能是因为模型从未更新，因此互相关为所有与目标首次出现相似的窗口提供了高分。所有序列都来自VOT-15基准：gymnastics1、car1、fish3、iceskater1、marching、singer1。快照是在固定帧（1、50、100和200）处拍摄的，并且跟踪器从未重新初始化。

【二、学习部分】

1 论文理解

本文主要介绍了一种全卷积孪生网络（深度相似性学习）用于解决目标跟踪问题。作者在深度卷积孪生网络的基础上（孪生网络之前就有，两幅相同尺寸的图片计算相似性，在人脸识别中用过）提出全卷积孪生网络，该架构下支持搜索图大于样本图，且一次全卷积操作将传统所有滑动窗口该做的计算做完，一次计算得出结果，从而达到了跟踪应用的实时性。

优点：

1）一次计算。

2）相关性特征丰富，提供比较好的鉴别器（作者强调未在线更新模型的情况下，效果已经优于绝大多数SOTA方法，且速度是最快的）

不足：

1）不是在线更新模型的模式，因此在混乱场景，相似对象多的情况下，容易跟踪错误。（作者强调本次论文是探索孪生网络对更加复杂的跟踪方法的补充，以后探索与复杂跟踪方法的结合）

2 经典十问

2.1 有哪些相关研究？如何归类？谁是这一课题在领域内值得关注的研究员？

1）循环神经网络 (RNN) 来解决物体跟踪问题，效果暂时不佳，但未来可期。

2）粒子滤波器跟踪物体，需要多个关注区，计算大。该方法在人脸和人物跟踪上得到了定性证明。

3）卷积网络形状像Y的YCNN，他们无法在训练后动态调整搜索区域的大小。

4）也有使用孪生网络做的，SINT（孪生实例搜索跟踪器），但是需要推选候选区，计算大。

值得关注的研究员：

传统的Zdenek Kalal（TLD）、Sam Hare（Struck）、João F. Henriques（KCF）等人；RNN的Gan和Kahou等人；粒子滤波器的Denil等人；YCNN的Held和Chen等人；孪生网络的Tao等人。

2.2 论文试图解决什么问题？

解决跟踪任务中

1）样本与搜索图特征匹配精度的问题（使用孪生网络的相关性解决）

2）解决之前跟踪方法计算量大的问题（提出全卷积孪生网络实现一次计算得出结果达到实时）

2.3 这是否是一个新的问题？

这不是一个新的问题，目标跟踪存在精度和速度差的问题已经存在多时。但深度卷积孪生网络如何在跟踪任务应用中的速度提升是新的问题，全卷积网络先前出现在语义分割中，本次应用中，作者将全卷积的思想以创新的结构应用在孪生网络中。

2.4 这篇文章要验证一个什么科学假设？

这篇文章主要验证深度相似性学习在跟踪任务中的有效性

1）可以通过全卷积孪生网络架构对大搜索图进行一次计算得出结果，并得到优秀的得分，实现速度与精度双优，特别是速度，比其他SOTA算法大大领先。

2）使用大搜索图像和ImageNet视频用于学习，数据量越大，模型能够接收新的知识，效果越好。（论文2.2、2.3提到，并且在4.5表3中做了数据集对模型的影响实验）

2.5 论文中提到的解决方案之关键是什么？

关键：
1）全卷积的结构，如何把样例图和搜索图对应上，一次计算出搜索图每个步长子窗口与样例图的相关性。

2）利用大搜索图训练，如何对齐数据集中样例和搜索图，作者进行了中心对象比例归一化。

3）使用异源的数据作为训练集，然后再未知的测试集上进行验证（这在跟踪测评中是个突破，各种比赛的官方也是建议大家使用异源数据来训练）。并且使用ImageNet大规模的视频数据来训练的，让深度学习呈现出它该有的样子。

2.6 论文中的实验是如何设计的？

1）训练
使用MatConvNet和简单的SGD最小化来找到嵌入函数的参数。
参数的初始值遵循高斯分布，根据改进的Xavier方法缩放。
训练进行50个周期（epochs），每个周期由 50,000 个采样对组成。
使用大小为 8 的小批量估计每次迭代的梯度，并且学习率在每个周期从10^-2到10^-5进行几何退火。

2）跟踪
初始对象外观的嵌入 φ(z) 仅计算一次，然后与后续帧的子窗口进行卷积比较。
不进行在线更新。
使用双三次插值对得分图进行上采样（从 17×17到272×272）。
为了处理尺度变化，在五个尺度1.025^{−2,−1,0,1,2}上搜索对象。

实验设计了：
1）与其他先进方法的比较

2）不同数据集大小对模型的影响

2.7 用于定量评估的数据集是什么？代码有没有开源？

设计了两种模型SiamFC（Siamese FullyConvolutional，5尺度）和SiamFC-3s（3尺度变体）。分别在OTB-13基准和VOT14、15、16基准上与最新的前40名方法进行比较。得出跟踪精度优秀、速度最佳的结果。

代码和数据集都开源。

2.8 论文中的实验及结果有没有很好地支持需要验证的科学假设？

实验及结果很好地支持需要验证的科学假设。

1）相似性学习获取到的跟踪特征能力强。

2）全卷积孪生网络的速度快。

3）数据集的增大，模型效果也稳步增大。

2.9 这篇论文到底有什么贡献？

对孪生网络在跟踪任务中的应用具有巨大的推进作用，让基于孪生网络的实时跟踪成为了可能。

2.10 下一步呢？有什么工作可以继续深入？

本次工作只探索了全卷积孪生网络在目标跟踪中如何设计为一个优秀的跟踪器，目前网络只对第一帧目标对象计算一次相似性模板，在后续视频跟踪（在线过程）中没有更新该模板，导致复杂环境中，目标变化大而跟丢。

下一步工作就是结合复杂的在线跟踪方法，探索全卷积孪生网络跟踪器与在线跟踪的关系。