【论文学习】《SiamMask: A Framework for Fast Online Object Tracking and Segmentation》19、23年快速在线目标跟踪与分割框架-CSDN博客

本文链接：https://blog.csdn.net/SkyLeopard/article/details/146983519

继SiamRPN之后，中科院自动化所团队又在孪生跟踪开辟了新了改进赛道，即跟踪并分割，且将跟踪框改进为旋转框，这就是SiamMask。SiamMask最早上传到Arxiv上是2018年12月12日，比SiamRPN++（2018年12月31日）还早个十几天，可以说，这两项工作是同时进行的。SiamMask也于2019年收录到CVPR，干货满满。这次SiamMask是大佬云集，SiamFC的作者Luca Bertinetto, and Philip H.S. Torr也在其中，还有胡卫明研究员。该篇论文经过调整后投到《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》期刊23年录用。本文以23年期刊版进行学习。

论文地址： 1、Arxiv版 Fast Online Object Tracking and Segmentation: A Unifying Approach

2、CVPR2019版 Fast Online Object Tracking and Segmentation: A Unifying Approach

3、IEEE2023版 SiamMask: A Framework for Fast Online Object Tracking and Segmentation

项目主页：项目的主页

作者主页：作者的主页

概述：

SiamRPN是一个快速在线目标跟踪与分割的统一框架。

【一、翻译部分】

SiamMask: A Framework for Fast Online Object Tracking and Segmentation

摘要：在本文中，我们介绍了SiamMask，这是一个使用同等简单的方法实现实时执行视觉对象跟踪和视频对象分割的框架。我们通过使用二元分割任务增加其损失来改进流行的全卷积孪生方法的离线训练程序。离线训练完成后，SiamMask只需要一个边界框进行初始化，就可以同时以高帧速率执行视觉对象跟踪和分割。此外，我们表明，只需以级联方式重新使用多任务模型，就可以扩展框架以处理多个对象跟踪和分割。实验结果表明，我们的方法具有很高的处理效率，约为每秒55帧。它在视觉对象跟踪基准上产生了实时的最先进的结果，同时在视频对象分割基准上展示了高速的竞争性能。

1 引言

跟踪是任何视频应用中的基本任务，需要对感兴趣的对象进行一定程度的推理，因为它允许在帧之间建立对象对应关系。它广泛应用于自动监控、车辆导航、视频标记、人机交互和活动识别等各种场景。给定视频第一帧中任意感兴趣的目标的位置，视觉对象跟踪的目的是尽可能准确地估计其在所有后续帧中的位置[1]。对于许多应用来说，重要的是可以在线执行跟踪，即在视频流式传输时执行跟踪，这意味着跟踪器不应使用未来帧来推理对象的当前位置[2]。这是视觉对象跟踪基准所描绘的场景，它们用一个简单的轴对齐（[3]、[4]、[5]、[6]）或旋转的 [2]、[7] 边界框来表示目标对象。这种简单的注释有助于降低数据标记成本；更重要的是，它允许用户快速简单地初始化目标。然而，在存在复杂运动和非刚性变形的情况下，边界框对物体轮廓的近似度非常差，这可能导致在表示中错误地包含属于背景的像素。

我们旨在通过提出SiamMask来缩小任意对象跟踪和VOS之间的差距，SiamMask是一种简单的多任务学习方法，可用于解决这两个问题。我们的方法受到基于全卷积孪生网络[23]的快速跟踪方法的成功启发，这些方法在数百万对视频帧上进行离线训练（例如 [24]、[25]、[26]、[27]），以及最近推出的带有像素注释的大型视频数据集YouTube-VOS[28]。我们的目标是保留孪生方法的离线可训练性和在线速度，同时显著改进其对目标对象的表示，该表示仅限于简单的轴对齐边界框。为了实现这一目标，我们同时在三个任务上训练一个全卷积孪生网络，每个任务对应一种不同的策略来建立目标对象和新帧中候选区域之间的对应关系。与Bertinetto等人的工作一样。 [23]，一项任务是以滑动窗口方式学习目标物体和多个候选物体之间的相似度度量。输出是一个密集响应图，它只指示物体的位置，而不提供任何关于其空间范围的信息。为了提炼这些信息，我们同时学习另外两个任务：使用区域候选网络[24]、[29]的边界框回归和与类别无关的二分类分割[30]。值得注意的是，分割二分类标签仅在离线训练期间需要计算分割损失，而在分割/跟踪期间不需要在线使用。在我们提出的架构中，每个任务都由共享CNN的不同分支表示，并计入最终的损失，将三个输出相加。

训练完成后，SiamMask仅依赖单个边界框初始化，无需更新即可在线运行，并以每秒55帧的速度生成对象分割掩码和旋转边界框（在单个消费级GPU上）。尽管SiamMask简单且速度快，但它为实时对象跟踪问题建立了新的领先地位。此外，同样的方法与VOS方法相比也非常具有竞争力（在多个基准测试中），而且速度快得多。这一结果是通过简单的边界框初始化（而不是掩码）实现的，并且无需采用VOS方法经常使用的昂贵技术，例如微调[13]、[14]、[31]、[32]、数据增强[33]、[34]和光流[12]、[13]、[14]、[18]、[34]。

我们进一步将多任务框架扩展到多对象跟踪和分割问题，方法是采用两阶段级联策略中的经过训练的SiamMask模型。第一阶段使用多个SiamMask实例（每个目标对象一个），识别目标对象可能位于的裁剪区域，第二阶段提取精确的逐像素蒙版。与多对象跟踪中常见的情况一样，数据关联问题（将新目标对象映射到现有轨迹）通过匈牙利算法解决。这种总体策略相当有效，尽管它很简单，但它在YouTube-VIS挑战赛中获得了第二名[35]。

本文的其余部分安排如下。第2节简要回顾了视觉对象跟踪和视频对象分割的相关工作。第3节概述了全卷积孪生网络，这是我们工作的基础。第4节描述了我们提出的跟踪和分割方法，而第5节解释了如何扩展该方法以解决多对象跟踪和分割问题。第6节报告了在几个流行基准上考虑的所有任务的定量和定性实验结果。最后，第7节总结了本文。

2 相关工作

为了给我们的工作提供背景，我们简要讨论了过去几年视觉对象跟踪和视频对象分割领域中最具代表性的一些发展。

2.1 视觉对象跟踪

直到最近，跟踪任意物体最流行的范例是根据视频第一帧提供的真实信息在线训练一个判别分类器，然后在线更新该分类器[1]。一种特别流行且有效的策略是使用相关滤波器[36]，这是一种简单的算法，由于其在傅里叶域中的公式，可以高速区分任意目标的模板及其二维平移。自从Bolme等人的开创性工作以来，通过采用多通道公式[37]、[38]、空间约束[39]、[40]、[41]、[42]和深度特征（例如 [22]、[43]），基于相关滤波器的跟踪器的性能得到了显着改善。

2016年，一种不同的范式开始流行起来[23]，[44]，[45]。这些方法不是在线学习判别分类器，而是在视频帧对上离线训练相似度函数。在测试时，可以简单地在新视频上每帧评估一次此函数。特别地，全卷积孪生方法[23]的演变通过利用区域候选[24]、硬负挖掘[25]、集成[26]，[46]、记忆网络[27]、多阶段级联回归[47]，[48]和无锚机制[49]，[50]，[51]，大大提高了跟踪性能。最近的发展从几个不同的方面改进了全卷积框架。Yang等人[52]通过使用离线训练的循环神经网络，在跟踪过程中借助元学习迭代调整网络参数。Cheng等人[53]使用元学习在跟踪过程中迭代调整网络参数。 [53]关注的是跟踪过程中“干扰项”带来的挑战性问题，通过明确学习“关系检测器”来将它们与背景区分开来。Guo等人[54]提出用图注意机制增强孪生网络，以建立目标特征和搜索区域之间的对应关系。Zhou等人[55]专注于挖掘被跟踪物体最显著的区域，以提高训练模型的判别能力。Yan等人[56]利用神经架构搜索来修剪基于孪生架构的大量空间，并找到性能最佳或FLOP最高效的架构。此外，[57]、[58]、[59]、[60]、[61]等几篇论文关注对抗性攻击对跟踪系统的负面影响，并使用鲁棒性文献中的几种技术（例如对抗性训练）来解决这些问题。

最近流行的一种趋势是使用自监督方法进行视觉物体跟踪。Wang等人[62]提出了一种基于孪生相关滤波器的网络，该网络使用通过在视频上来回运行跟踪器获得的伪标签进行训练以获得稳定的轨迹。Yuan等人[63]利用循环一致性进行表示学习。Zheng等人[64]通过光流挖掘视频中的运动物体，以无监督的方式学习孪生网络。同样，Sio等人[65]通过从同一帧中提取样例和搜索图像，设法以无监督的方式学习孪生网络，同时采用数据增强使问题变得不那么简单。最后，Wu等人[66]使用对比学习以无监督的方式学习前景/背景鉴别器。然后使用它来在整个视频中发现相应的补丁以学习跟踪模型。

图1 我们的方法解决了视觉跟踪和视频对象分割这两个任务，以实现较高的实用便利性。与传统的对象跟踪器（如 [22]）（红色）一样，它依赖于简单的边界框初始化（蓝色）并在线运行。但是，SiamMask（绿色）能够生成二进制分割掩码（我们可以从中推断出旋转的边界框），从而更准确地描述目标对象。

上述跟踪器使用矩形边界框来初始化目标并估计其在后续帧中的位置。尽管使用起来很方便，但简单的矩形通常无法正确表示对象，如图1的示例所示。这促使我们提出一种能够生成二进制分割掩码的跟踪器，同时仍然仅依赖于快速绘制的边界框初始化。

2.2 视频对象分割 (VOS)

任意对象跟踪的基准（例如 [1]、[67]）假设跟踪器以顺序方式接收输入帧。这方面通常被称为在线或因果属性[67]。此外，方法通常侧重于实现超过典型视频帧速率（每秒约 25 到 30 帧）的速度。相反，VOS算法传统上更关注对感兴趣对象的准确表示[8]、[9]。

为了利用视频帧之间的一致性，有几种方法通过图标记方法将第一帧的监督分割掩码传播到时间相邻的帧（例如 [11]、[12]、[14]、[16]、[68]、[69]）。特别是，Bao等人[14] 最近提出了一种非常准确的方法，该方法利用时空MRF，其中时间依赖性由光流建模，而空间依赖性由CNN表示。另一种流行的策略是独立处理视频帧（例如[13]、[31]、[32]），类似于大多数跟踪方法中发生的情况。例如，在OSVOS-S中，Maninis等人[31]不使用任何时间信息。他们依靠预先训练的全卷积网络进行分类，然后在测试时使用第一帧中提供的真实掩码对其进行微调。 MaskTrack[13]则是在单个图像上从头进行训练，但它在测试时利用了某种形式的时间性，即使用最新的掩码预测和光流作为网络的额外输入。

为了获得最高的准确度，VOS方法在测试时通常采用计算密集型技术，如微调[13]、[14]、[31]、[32]、数据增强[33]、[34] 和光流[12]、[13]、[14]、[18]、[34]。因此，这些方法通常具有帧率低和无法在线操作的特点。例如，对于只有几秒钟长的视频，比如DAVIS基准[8]，这些方法通常需要几分钟[13]、[70]甚至几小时[12]、[14]的时间。最近，VOS社区对更快的方法越来越感兴趣[16]、[17]、[18]、[19]、[20]、[21]。两种值得注意的快速方法是OSMN[15]和RGMP[17]，其性能可与最先进的方法相媲美。前者使用元网络“调制器”在测试时快速调整分割网络的参数，而后者不使用任何微调，采用经过多阶段训练的编码器-解码器连体架构。这两种方法的运行速度都低于每秒10帧，因此不适合实时应用。

2.3 跟踪与分割

有趣的是，过去在线跟踪器生成目标物体的非常粗略的二进制掩码并不罕见（例如[71]、[72]、[73]、[74]）。在现代，速度更快且在线操作的跟踪器通常使用矩形边界框来表示目标物体，而为了能够生成准确的掩码，研究人员通常会放弃速度和在线可操作性，正如我们在上一节中看到的那样。

存在一些值得注意的例外，其中一些是最近的，是在本文的会议版本之后发表的。Yeo等人[75]提出了一种基于超像素的跟踪器，它能够在线操作并从边界框初始化开始为对象生成二进制掩码。然而，这种跟踪器最快的版本以每秒4帧的速度运行。当使用CNN特征时，其速度降低了40倍。Perazzi等人[13]和Ci等人[76]提出了视频对象分割方法，与我们一样，可以使用第一帧中的简单轴对齐矩形进行初始化，同时在每一帧输出一个掩码。Yan等人[77]采用像素相关层和辅助掩码头来提高跟踪性能。然而，他们的方法需要在线学习网络参数，这限制了它的实际应用。Lukezic等人[78]采用像素相关层和辅助掩码头来提高跟踪性能。[78]提出了一种同时处理跟踪和分割的方法，即用两个判别模型对目标对象进行编码，这两个模型捕捉互补的特性：一个是自适应的，但只考虑欧几里德运动，另一个则考虑非刚性变换。这些方法需要在跟踪过程中进行在线学习，这会影响它们的速度。

3 全卷积孪生网络

为了实现在线可操作性和快速性，我们采用全卷积孪生框架 [23]，同时考虑SiamFC[23]、[43]和SiamRPN[24]作为起点。我们首先在第3.1和3.2节中介绍它们，然后在第4节中描述我们的方法。

3.1 SiamFC

Bertinetto等人[23]提出使用离线训练的全卷积孪生网络作为跟踪系统的基本构建块，该网络将样例图像 $z$ 与更大的搜索图像 $x$ 进行比较以获得密集响应图（其中响应最高的位置可用于推断样例在搜索图像中的位置）。 $z$ 和 $x$ 分别是以目标对象为中心的大小为 $w\times h$ 的裁剪图和以目标的最后估计位置为中心的更大裁剪图。这两个输入由同一个CNN $f_{\theta }$ 处理，产生两个互相关的特征图：

$g_{\theta }\left ( z,x \right )=f_{\theta }\left ( z \right )\star f_{\theta }\left ( x \right )$ (1)

在本文中，我们将响应图的每个空间元素称为候选窗口 (RoW) 的响应，其中 $g_{\theta }^{n}\left ( z,x \right )$ 对样本 $z$ 与 $x$ 中的第n个候选窗口之间的相似性进行编码。对于SiamFC，目标是使响应图的最大值对应于搜索区域 $x$ 中的目标位置。为了让每个RoW编码有关目标对象的更丰富信息，正如我们稍后会看到的，我们用深度互相关[79]、[106]代替了等式1中的简单互相关，并生成多通道响应图。

SiamFC在数百万个视频帧上进行离线训练，并使用逻辑损失[23，第2.2节]。令 $y^{n}\in \left \{ +1,-1 \right \}$ 为响应图网格 $D$ 中位置 $n$ 的RoW的真实标签。逻辑损失定义为：

$L_{sim}=\frac{1}{\left | D \right |}\sum_{n\in D}log\left ( 1+exp\left ( -y^{n}g_{\theta }^{n}\left ( z,x \right ) \right ) \right )$ (2)

3.2 SiamRPN

Li等人[24]依靠区域候选网络（RPN）[29]、[80]，显著提高了SiamFC的跟踪精度，该网络允许使用可变长宽比的边界框来估计目标位置。具体来说，在SiamRPN中，每个RoW编码一组 $k$ 个锚框候选和相应的对象/背景分数。因此，SiamRPN能够与对象/背景分类分数并行输出框预测（使用回归分支）。

使用[24]中的命名法和公式，我们假设总共有 $k$ 个锚框。使用卷积层从特征图 $f_{\theta }\left ( z \right )$ 中获得两个特征 $\left [ f\left ( z \right ) \right ]_{cls}$ （用于分类分支）和 $\left [ f\left ( z \right ) \right ]_{reg}$ （用于回归分支）。它们的通道数取决于锚点的数量，并且分别相对于 $f_{\theta }\left ( z \right )$ 增加2k倍和4k倍。分类分支上 $z$ 和 $x$ 之间的相关性通过以下方式获得

$G_{\left | D \right |\times 2k}^{cls}=\left [ f\left ( x \right ) \right ]_{cls}^{\star }\left [ f\left ( x \right ) \right ]_{cls}$ (3)

而回归分支的相关性

$H_{w\times h\times 4k}^{reg}=\left [ f\left ( x \right ) \right ]_{reg}^{\star }\left [ f\left ( z \right ) \right ]_{reg}$ (4)

这样，G和H中的每个空间位置分别具有2k和4k通道的“深度”。换句话说，对于来自RPN模块的每个锚点，网络都会生成两个多通道响应图：

用于对象/背景分类的双通道输出，“分数”代表原始图中的对应位置。
用于边界框回归的四通道输出，表示中心 $\left ( x,y \right )$ 距离以及锚点和相应真值之间的宽度和高度 $\left ( x,y \right )$ $\left ( w,h \right )$ 差异。

离线时，分类分支使用交叉熵损失 $L_{score}$ [24]进行训练：

$L_{score}=\frac{1}{k\left | D \right |}\sum_{n=1}^{\left | D \right |}\sum_{i=1}^{k}-\left [ y_{n,i}log\left ( p_{n,i} \right )+\left ( 1-y_{n,i} \right )log\left ( 1-p_{n,i} \right ) \right ]$ (5)

其中 $p_{n,i}$ 是第n行第i个锚点的分类分支的输出，而回归分支使用具有归一化坐标的平滑 $L_{1}$ 损失 $L_{reg}$ 进行训练。令 $A_{x}$ 、 $A_{y}$ 、 $A_{w}$ 和 $A_{h}$ 表示锚点框的中心点坐标以及宽度和高度。令 $T_{x}$ 、 $T_{y}$ 、 $T_{w}$ 和 $T_{h}$ 表示真实框的中心坐标、宽度和高度。锚点和真实框之间的归一化距离定义为

$\delta \left [ 0 \right ]=\frac{T_{x}-A_{x}}{A_{w}},\delta \left [ 1 \right ]=\frac{T_{y}-A{y}}{A_{h}},\delta \left [ 2 \right ]=ln\frac{T_{w}}{A_{w}},\delta \left [ 3 \right ]=\frac{T_{h}}{A_{h}}$ (6)

$x$ 的平滑 $L_{1}$ 损失为

$smooth_{L_{1}}=\left\{\begin{matrix} 0.5\beta ^{2}x^{2}&&\left | x \right |<\frac{1}{\beta ^{2}}\\ \left | x \right |-\frac{1}{2\beta ^{2}} &&\left | x \right | \geq \frac{1}{\beta ^{2}} \end{matrix}\right.$ (7)

其中 $\beta$ 是需要调整的超参数。令为 $\left \{ q\left [ j \right ] \right \}_{i=0}^{3}$ 锚点回归分支的四个通道的输出。锚点回归的损失 $L_{reg}$ 定义为：

$L_{reg}=\frac{1}{2k\left | D \right |}\sum_{n=1}^{\left | D \right |}\sum_{i=1}^{k}\sum_{j=0}^{3}\left ( y_{i}^{n}+1 \right )smooth_{L_{1}}\left ( \delta \left [ j \right ]-q\left [ j \right ],\beta \right )$ (8)

其中 $y_{i}^{n}$ 是第n个RoW的第i个锚点的真实标签。

4 SiamMask

与依赖低保真度对象表示的现有跟踪方法不同，我们强调生成每帧二进制分割掩码的重要性。为此，我们表明，除了相似度分数和边界框坐标之外，全卷积孪生网络的RoW还可以编码生成像素二进制掩码所需的信息。这可以通过使用额外的分支和损失扩展现有的孪生跟踪器来实现。在以下小节中，我们将描述多分支网络架构（第4.1节）、获取和改进掩码表示的策略（第4.2节）、损失函数（第4.3节）以及如何从掩码中获取边界框（第4.4节）。

4.1 多分支网络架构

我们通过添加分割分支来增强SiamFC[23]和SiamRPN[24]的架构，以获得所提出的孪生掩码网络 (SiamMask) 的两分支和三分支变体，如图2和图3所示。在两分支变体中，分支 $p_{w}$ 负责区分目标对象或背景之间的每个RoW，而分支 $h_{\phi }$ 为每个RoW输出一个分割掩码。除此之外，三分支变体还采用了与SiamRPN类似的框回归分支 $b_{\sigma }$ 。

重要的是，为了让每个RoW编码有关目标对象的更丰富信息，我们将等式 (1) 中的简单互相关“*”替换为深度互相关（参见例如[79]）“*d”，并生成多通道响应图。然后，深度互相关 $g_{\theta }^{n}$ 的输出是一个具有d个通道的向量（在图2的说明性示例中，其大小为1*1*256）。请注意，对于分类分支，多通道输出通过卷积层映射到单通道响应图。然后通过将 (2) 中的 $g_{\theta }^{n}\left ( z,x \right )$ 替换为 $p_{w}\left ( g_{\theta }^{n}\left ( z,x \right ) \right )$ 来定义逻辑损失。

在分割分支中，我们使用具有可学习参数 $\phi$ 的简单两层神经网络 $h_{\phi }$ 来预测 $w\times h$ 二元掩码 $m^{n}$ （每个RoW中有n个）：

$m^{n}=h_{\phi }\left ( g_{\theta }^{n}\left ( x,z \right ) \right )$ (9)

从等式 (9) 中我们可以看出，掩码预测是搜索范围x和样例图像z的函数。这样，z可以用作“启动”分割的指南：给定不同的参考图，网络将产生不同的分割掩码，正如我们将在实验部分看到的那样。

4.2 掩模表示与细化

与FCN[81]和Mask R-CNN[82]之类的语义分割方法（它们在整个网络中维护明确的空间信息）相比，我们的方法遵循DeepMask[30]和SharpMask[83]的精神，从对象的扁平表示开始生成掩码。具体来说，在我们的例子中，这个表示对应于 $f_{\theta }(z)$ 和 $f_{\theta }\left ( x \right )$ 之间的深度互相关产生的17x17 RoWs。重要的是，分割任务的网络 $h_{\phi }$ 由两个1x1卷积层组成，一个有256个通道，另一个有632个通道（图2）。这使得每个像素分类器都能利用整个行中包含的信息，从而对x中相应的候选窗口有完整的视图。为了生成更精确的对象掩码，我们遵循[83]的策略，即使用由上采样层和跳过连接组成的多个细化模块结合低分辨率和高分辨率特征。

图4更详细地说明了我们的架构，明确展示了生成最终掩码的细化模块堆栈。样例和搜索图像由同一网络处理，并且它们的特征（深度方向）互相关以获得特征 $g_{\theta }\left ( x,z \right )$ ，其中我们用 $g_{\theta }^{n}\left ( x,z \right )\in \mathbb{R}^{1\times 1\times d}$ 表示第n行。让 $f_{1}$ 、 $f_{2}$ 和 $f_{3}$ 分别为从孪生网络中的第三、第二和第一层提取的针对x中第n行的特征图。对 $g_{\theta }^{n}\left ( x,z \right )$ 进行反卷积以获得第n行的分割表示 $e_{1}\in \mathbb{R}^{m_{1}\times m_{1}\times k_{1}}$ 分辨率相对较低（ $1< k_{1}< d, m_{1}>1$ ）。在细化模块 $U_{2}$ 中，掩码表示 $e_{1}$ 和高层特征图 $f_{1}$ 被组合，通过上采样获得分辨率高于 $e_{2}$ 的掩码表示 $e_{1}:e_{2}=U_{2}\left ( e_{1},f_{1} \right )\in \mathbb{R}^{m_{2} \times m_{2} \times k_{2}}\left ( m_{2} > m_{1}, k_{2}<k_{1} \right )$ 。类似地，模块 $U_{3}$ 和 $U_{4}$ 产生分辨率越来越高的表示。除了获得更高分辨率的特征图外，此过程还允许使用来自不同“深度”层的互补信息。

图5显示了 $U_{3}$ 的结构，作为细化模块的示例。使用掩码表示 $e_{2}$ 通过两个卷积层和一个非线性层获得新的掩码表示A。然后使用特征图 $f_{2}$ 通过三个卷积层和两个非线性层输出与A大小相同的新特征B。然后，A和B的总和产生新的掩码C。最后，使用最后一个非线性层来生成新的、2级放大的掩码表示 $e_{3}$ 。

4.3 损失函数

我们定义分割分支的损失函数，并将其与其他分支的损失函数结合起来。

分割分支的损失。在训练期间，每个RoW都标有真实二进制标签 $y_{n}\in \left \{ \pm 1 \right \}$ ，并且还与大小为 $w\times h$ 的逐像素真实掩码 $c_{n}$ 相关联。令 $c_{N}^{ij}\in \left \{ \pm 1 \right \}$ 表示与第n个候选RoW中对象掩码的像素 $\left ( i,j \right )$ 相对应的标签。掩码预测任务的损失函数 $L_{mask}$ （等式 (10)）是所有RoW的二元逻辑回归损失：

$L_{mask\left ( \theta ,\phi \right )}=\sum _{n}\left ( \frac{1+y_{n}}{2wh}\sum _{ij}log\left ( 1+e^{-c_{n}^{ij}m_{n}^{ij}} \right ) \right )$ (10)

其中 $m_{ij}^{n}$ 是公式 (9) 中定义的 $m^{n}$ 中的一个元素。因此， $h_{\phi }$ 的分类层由 $w \times h$ 个分类器组成，每个分类器指示给定像素是否属于候选窗口中的目标。需要注意的是， $L_{mask}$ 仅针对正行数据（即 $y_{n}=1$ ）进行考虑。由于负样本数量较多，考虑它们会导致损失失衡。我们尝试了加权损失，使负样本和正样本具有相同的重要性，但结果比仅考虑正样本更差。

多任务损失。在实验中，我们利用分割分支和损失函数 $L_{mask}$ 对SiamFC[23]和SiamRPN[24]的架构进行了增强，从而获得了SiamMask的双分支和三分支变体。它们分别优化了多任务损失函数 $L_{2B}$ 和 $L_{3B}$ ，定义为：

$L_{2B}=\lambda \cdot L_{mask}+\lambda _{2}\cdot L_{sim}$ (11)

$L_{3B}=\lambda _{1}\cdot L_{mask}+\lambda _{2}\cdot L_{score}+\lambda _{3}\cdot L_{reg}$ (12)

我们没有搜索公式（11）和（12）的超参数，只是像[30]中一样简单地设置 $\lambda _{1}=32$ 和 $\lambda _{2}=\lambda _{3}=1$ 。针对框和分数输出的任务特定分支由两个 $1\times 1$ 卷积层构成。

4.4 框生成

图6 为了从二值掩模生成边界框（黄色），我们尝试了三种不同的方法。Min-max：包含对象的轴对齐矩形（红色）；MBR：最小边界矩形（绿色）；Opt：通过VOT-2016[2], [67] 中提出的优化策略获得的矩形（蓝色）。

需要注意的是，虽然视频对象分割基准测试需要二值掩码，但典型的跟踪基准测试（例如VOT[67]）需要边界框作为目标对象的最终表示。我们考虑了三种不同的策略来从二值掩码生成边界框，如图6所示：(1) 轴对齐边界矩形 (Min-max)，(2) 旋转最小边界矩形 (MBR) 以及 (3) VOT基准测试[2], [67]中提出的用于自动边界框生成的优化策略（Opt）。我们在第6节（表4）中对这些替代方案进行了实证评估。

4.5 训练和测试

在训练期间，将样例和搜索图像样本对输入网络，并使用预测的掩码、分数和框来优化多任务损失（等式 (11) 或 (12)）。在SiamMask的两分支和三分支版本中，正样本和负样本的定义不同。对于 $L_{3B}$ ，如果RoW的一个锚框与真值边界框的交并比 (IOU) 至少为0.6，则认为该RoW为正（ $y_{n}=1$ ），否则为负（ $y_{n}=-1$ ）。对于 $L_{2B}$ ，我们采用与[23]类似的策略来定义正样本和负样本：如果预测中心与真值中心之间的距离低于16像素（在特征空间中），则认为RoW为正样本，否则为负样本。

在线追踪过程中，使用离线训练的SiamMask为每个输入帧生成掩码和边界框，无需进一步调整网络参数，只需进行简单的轴对齐边界框初始化即可。在两种变体中，输出掩码均根据分类分支中得分最高的位置进行选择。

5 多目标跟踪与分割

我们将提出的SiamMask的应用扩展到基于分割的多对象跟踪[84]，这需要在整个视频中分割和跟踪任意数量的对象[85]。与单对象跟踪问题相比，它增加了需要消除对象实例之间歧义的难度。这意味着，在帧之间，每个对象都需要用正确的身份进行标记，这在拥挤的场景中尤其具有挑战性。

为了解决这个问题，我们使用预先训练的基于分割的对象检测算法来初始化各个轨迹，然后对于每个对象，我们以“级联方式”应用两次SiamMask。更具体地说，对于每个新帧，使用现成的基于分割的对象检测器[86]来获得M个候选掩码 $D=\left \{ d_{i} \right \}_{i=1}^{M}$ 。给定现有轨迹 $\tau =\left \{ t_{i} \right \}_{i=1}^{N}$ ，使用SiamMask生成N个掩码 $P=\left \{ p_{j} \right \}_{j=1}^{N}$ 。然后，通过将D和P之间的分配作为最优传输问题求解来获得跨帧的身份关联。令 $a_{ij}$ 为D中第i个掩码 $d_{i}$ 和P中第j个掩码 $p_{j}$ 之间的成对亲和力。它被定义为掩码 $d_{i}$ 和 $p_{j}$ 之间的IOU交集比并集）。令 $x_{ij}\in \left \{ 0,1 \right \}$ 表示 $d_{i}$ 和 $p_{j}$ 之间的成对关联，如果 $d_{i}$ 和 $p_{j}$ 属于同一对象，则为1，否则为1。D和P之间的分配公式如下：

$max_{x_{ij}}\sum _{i=1}^{M}\sum _{j=1}^{N}a_{ij}x_{ij}$ (3)

$s.t.\left\{\begin{matrix} \forall i\in \left \{ 1,2,...,M \right \} && \sum _{j=1}^{N}x_{ij}\leq 1,\\ \forall i\in \left \{ 1,2,...,N \right \} && \sum _{i=i}^{M}x_{ij}\leq 1. \end{matrix}\right.$

这确保了D中的每个掩码与P中的最多一个掩码相关联，反之亦然，P中的每个掩码与D中的最多一个掩码相关联。这个受约束的整数优化问题可以通过匈牙利算法解决。通过在每一帧解决这个分配问题，整个视频中的对象轨迹都能得到保持。

虽然许多现有的视觉对象跟踪算法和对象分割算法都可用于构建相邻帧之间的对象对应关系，但我们发现SiamMask是一个实用且有效的选择。它的低计算成本使我们能够处理多个对象，并且分类分支的跟踪分数可以方便地用于指示目标对象的遮挡或消失。

对于我们在多目标跟踪和分割方面的实验，我们提出了一个级联版本的SiamMask，如图7所示。在第一阶段，SiamMask的回归分支预测每个目标的粗略位置。在第二阶段，根据第一阶段中最高分数对应的边界框从搜索图像中提取一个裁剪区域，并用于预测来自分割分支的细化掩码。这些掩码是与当前目标轨迹相关的新预测P。然后，计算SiamMask预测的掩码和新检测到的掩码D之间的 IoU。等式 (13) 中的分配将检测到的掩码D与现有轨迹相关联，并且它还用于跟踪新出现或消失的目标（ $\left | M-N \right |$ 是新目标或丢失目标的数量）。

6 实验

在本实验部分中，我们首先描述实现细节（第6.1节），然后针对三个相关但不同的问题评估我们的方法：在VOT-2016、VOT-2018、GOT-10k和TrackingNet上进行视觉对象跟踪（第6.2节）；在DAVIS-2016、DAVIS-2017和YouTube-VOS上进行视频对象分割（第6.3节）；以及在YouTube-VIS上进行多对象跟踪和分割（第6.4节）。我们以消融研究（第6.5节）和基准视频中的定性示例（第6.6节）作为本节的结论。

6.1 实施

网络架构。对于SiamMask的双分支和三分支变体，我们都使用ResNet-50[87]架构，直到第4阶段的最后一个卷积层作为我们的主干 $f_{\theta }$ 。为了在更深的层中获得高空间分辨率，我们使用步幅为1的卷积将输出步幅从32减少到8。此外，我们通过使用扩张卷积增加了感受野[88]。表1概述了 $f_{\theta }$ 的结构，而表2和表3显示了SiamMask两种变体的分支架构。在我们的模型中，我们在共享主干 $f_{\theta }$ 上添加了一个（非共享的）“调整层”，它由一个具有256个输出的1*1卷积组成（为简单起见，省略了等式 (1)）。在conv4_1块的3×3卷积层中，步长为1，扩张率为2。两个变体中的conv5块都包含一个归一化层和一个ReLU非线性函数，而conv6块仅包含一个1×1卷积层。对于三分支变体，锚点数量k设置为5。样本图像和搜索图像共享从conv1块到conv4_x块的网络参数，但不共享调整层的参数。最后一步，在样本图像和搜索区域的各个调整层的输出特征图之间进行深度互相关，最终获得大小为17×17×256的输出。

离线训练设置。与SiamFC[23]一样，样本和搜索图像块的大小分别为127 x 127和255 x 255像素。训练样本来自COCO[89]、ImageNet-VID[90]和YouTube-VOS[28]，并通过随机平移和缩放输入块进行增强。样本图像的随机平移在±4像素以内，搜索图像的随机平移在±64像素以内。样本图像和搜索图像的随机缩放分别在[0.95, 1.05]和[0.82, 1.18]范围内。网络主干已在ILSVRC ImageNet分类任务（1000个类）上进行了预训练。我们使用带有第一个预热阶段的SGD，其中前5个时期的学习率从 $10^{3}$ 线性增加到 $5\times 10^{-3}$ ，然后在接下来的15个时期中对数下降直到 $5\times 10^{-4}$ 。

在线推理设置。在跟踪过程中，SiamMask仅每帧评估一次，无需任何调整。在我们的两个变体中，我们都使用在分类分支中获得最高分数的位置来选择输出掩码。然后，在应用逐像素sigmoid函数后，我们将掩码分支的输出以阈值0.5进行二值化。在双分支变体中，对于第一帧之后的每个视频帧，我们使用最小-最大框拟合输出掩码，并以此作为参考来裁剪下一帧的搜索区域。相反，在三分支变体中，我们发现利用框分支得分最高的输出作为参考更为有效。

实时。SiamMask在线运行，无需对测试序列进行任何调整。在单个NVIDIA RTX 2080 GPU上，我们测得双分支和三分支变体的平均速度分别为每秒55帧和60帧。需要注意的是，SiamMask在追踪过程中不会对网络参数进行在线调整，最大的计算负担来自特征提取器 $f_{\theta }$ 。

数据集。为了评估跟踪性能，使用了以下四个基准：VOT-2016[7]，VOT-2018[2]，GOT-10k[91]和TrackingNet[5]。

VOT-2016和VOT-2018。我们使用VOT-2016来了解不同类型的表征如何影响性能。在第一个实验中，我们使用了平均交并比 (IOU) 和平均精度 (AP)@{0:5,0:7} IOU。然后，我们使用官方VOT工具包和预期平均重叠率 (EAO)（一种同时考虑跟踪器准确率和鲁棒性的指标）与VOT-2018和VOT-2016上的最新成果进行比较[67]。
GOT-10k和TrackingNet。这些是更大、更新的视觉对象跟踪数据集，可用于测试跟踪器在大量不同类别、场景和运动类型上的泛化能力。

为了评估（VOS）分割性能，使用了以下四个基准：DAVIS-2016[8]，DAVIS2017[92]，YouTube-VOS[28]和YouTube-VIS[35]。

DAVIS-2016和DAVIS-2017。我们报告了SiamMask在DAVIS-2016[8]、DAVIS2017[92]和YouTube-VOS[28]基准上的表现。对于这两个DAVIS数据集，我们都使用官方性能指标：Jaccard指数 ( $\jmath$ ) 表示区域相似性，F-measure ( $F$ ) 表示轮廓精度。对于每个度量 $C\in \left \{ \jmath ,F \right \}$ ，我们考虑三个统计数据：平均 $C_{M}$ 、召回率 $C_{O}$ 和衰减 $C_{D}$ ，这可以告诉我们性能随时间的变化[8]。
YouTube-VOS。按照[28]的方法，YouTube-VOS中测试样本的最终结果是以下四个指标的平均值：训练集中出现的可见类的重叠精度 $J_{s}$ 、训练集中未出现的不可见类的重叠精度 $J_{u}$ 、可见类的边缘精度 $F_{s}$ 以及不可见类的边缘精度 $F_{u}$ 。我们报告了可见类别（ $J_{s}$ ， $F_{s}$ ）和不可见类别（ $J_{u}$ ， $F_{u}$ ）的平均Jaccard指数和F-measure。 $O$ 是这四个度量的平均值。
YouTube-VIS。这是一个大型多目标跟踪和分割数据集，包含2,883个高分辨率视频，其中包含40个类别的对象，以及131,000个高质量像素级掩模。使用平均精度 (AP) 和平均召回率作为性能指标[35]。

6.2 跟踪评估

目标对象表示。现有的跟踪方法通常预测具有固定[23]、[38]、[40]、[41]或可变[24]、[25]、[44]长宽比的轴对齐边界框。我们感兴趣的是了解生成每帧二值掩码可以在多大程度上改善跟踪。为了专注于表示准确性，在本实验中，我们仅忽略时间方面并随机采样视频帧。下文中描述的方法将在从VOT-2016序列中随机裁剪的搜索块（在±16像素内随机平移，缩放变形高达 $2^{1\pm 0.25}$ ）上进行测试。

在表4中，我们比较了使用Min-max、MBR和Opt方法（如第4.4节和图6中所述）的三分支变体。作为参考，我们还报告了SiamFC和SiamRPN的结果，作为固定和可变长宽比方法的代表，以及三个可以访问每帧地面实况信息并作为不同表示策略上限的oracle。（1）固定长宽比oracle（表中为“固定”）使用每帧地面实况区域和中心位置，但将长宽比固定为第一帧的长宽比，并生成轴对齐的边界框。（2）Min-max oracle使用旋转后的地面实况边界框的最小外接矩形来生成轴对齐的边界框。（3）最后，MBR oracle使用地面实况的旋转最小边界矩形。请注意，(1)、(2) 和 (3) 可以分别被视为SiamFC、SiamRPN和SiamMask 表示策略的性能上限。

结果报告了以SiamFC和SiamRPN为代表的跟踪器，分别使用固定和可变长宽比边界框表示。我们使用SiamMask的三分支变体，报告使用Min-max、MBR和Opt表示策略时获得的结果。虽然 SiamMask-Opt提供最高的IOU和mAP，但由于其缓慢的优化过程，它需要大量的计算资源。SiamMask-MBR 实现了85.4的mAP@0.5 IOU，相对于两个完全卷积基线分别提高了+29 和+9:2 个百分点。有趣的是，当考虑0.7 IOU的更高精度范围内的mAP时，差距显著扩大：分别为+41:6 和+18:4。值得注意的是，我们的精度结果与固定长宽比预言相差不远。此外，通过比较oracle所代表的上限性能，我们可以注意到，通过简单地改变边界框表示，就有很大的改进空间（例如，固定纵横比和MBR oracle之间的±10：6% mIOU改进）。

总体而言，这项研究表明，MBR策略如何从对象的二进制掩码中获取旋转的边界框，与仅报告轴对齐边界框的流行策略相比具有显着优势。

VOT-2016和VOT-2018上的结果。表5展示了SiamMask在VOT-2016和VOT-2018基准测试中采用不同边界框生成策略的结果。测试考虑了EAO、准确率、鲁棒性和速度等指标。SiamMaskbox表明，尽管已经训练了mask分支，但SiamMask的边界框分支仍被采用进行推理。从表中可以得出以下观察结果：

在更为简单的VOT-2016基准测试中，与直接从box回归分支输出axisaligned boxes的SiamMask-box相比，从mask分支输出boxes的SiamMask-Opt将EAO提高了3%，准确率提高了4.7%。
在更具挑战性的VOT-2018上，SiamMask-Opt将EAO提高了2.4%，准确率提高了5.8%，鲁棒性也得到了提高。
总体而言，SiamMask-MBR的性能优于SiamMask-box，同时保持了实时速度。

总体而言，我们可以观察到使用mask分支进行边界框生成后，所有评估指标都有显著提升。需要注意的是，SiamMask-Opt在整体EAO方面表现最佳（尤其是在准确率方面），但其相对于SiamMask-MBR的改进并不能证明其显著更高的计算成本是合理的。

在表6中，我们将SiamMask的两个变体（采用MBR策略）和SiamMask-Opt与VOT-2018基准上的五种流行追踪器进行了比较。除非另有说明，SiamMask均指采用MBR策略的三分支变体。这两个变体都实现了强大的性能并可实时运行。特别地，我们的三分支变体明显优于DaSiamRPN[25]（使用YouTube边界框[93]进行训练），在55帧/秒的速率下实现了0.380的EAO。即使没有边界框回归分支，我们更简单的两分支变体 (SiamMask-2B) 也能实现0.334的高 EAO，与SA_Siam_R[26] 相当，并且优于本文会议版本发表时已发表文献中的任何其他实时方法[94]。最后，在SiamMaskOpt中，[2]中提出的从二元掩模中找到最佳旋转矩形的策略带来了最佳的整体性能（以及特别高的准确性），但计算成本很高。

我们的模型在准确率指标下尤其出色，相比基于相关滤波器的跟踪器CSRDCF[41]和STRCF[42]表现出显著优势。这并不奇怪，因为SiamMask依赖于更丰富的对象表示，如表4中的实验所示。有趣的是，与我们类似，He等人 (SA_Siam_R) [26]也致力于通过考虑多个旋转和缩放的边界框来实现更准确的目标表示。然而，他们的表示仍然局限于固定长宽比的边界框。

图8 提出的SiamMask的EAO图和VOT2018挑战赛中排名前十的实时竞争追踪器。

实时VOT-2018对比。为了进一步可视化，我们使用VOT工具包提供的图表，将SiaMask与EAO（预期平均重叠：VOT使用的汇总指标）排名前十的实时追踪器进行比较。在图8中，横坐标表示追踪器的排名，纵坐标表示其EAO。图中的水平灰线代表VOT委员会认为的比赛当时最先进的水平。与全卷积网络SiamFC相比，SiamMask的性能提升显著，绝对值提升了19.8%。

图9 SiamMask与最先进的追踪器在VOT2016和VOT2018上针对不同视觉场景属性的比较。

VOT属性细分。在VOT基准测试中，帧被密集地标记了场景属性，以便更定性地了解不同跟踪器在不同情况下的表现。场景属性包括：遮挡、光照变化、运动变化、尺寸（比例）变化和相机运动。在VOT-2016和VOT-2018基准测试中，我们将SiamMask与流行且具有代表性的跟踪器[22]、[24]、[25]、[26]、[42]、[95]、[96]、[97]就这些属性进行了比较。结果如图9所示。对于这两个基准测试，可以看出SiamMask在大多数场景属性中都获得了最佳结果。我们的方法带来的一个明显优势是能够为目标对象（高速）提供像素级的掩码表示，这使得精度更高且易于适应，尤其是在存在快速非刚性变形的情况下。

无监督学习。目标跟踪（以及一般的计算机视觉）领域的最新趋势是使用自监督代理任务在大规模数据集上训练特征提取器。这是一个非常有吸引力的策略，因为它提供了一种无需提供高成本的边界框或掩码标签即可利用大型数据集的方法。然而，这些方法面临着在通常的监督循环之外选择正确代理任务的额外挑战，这需要进行大量的实验来调整大量至关重要的超参数，例如控制数据增强的超参数。表7在VOT-2018基准上将我们的方法与一组近期基于自监督学习的代表性跟踪器[62]，[63]，[64]，[65]，[66]进行了比较。可以看出，虽然它们的速度与我们的方法相当（有时甚至更快），但它们的整体性能仍然落后。

GOT-10k和TrackingNet上的结果。GOT-10k[91]是一个非常大规模的跟踪数据集，涵盖563个目标类别和87种运动模式。它总共包含10,000个视频片段，带有150万个边界框标签。我们使用180个视频对跟踪器进行评估，这些视频包含84种不同的目标类别和32种“运动类型”。跟踪器使用平均重叠度进行排名。我们还报告了两个阈值下的成功率：0.5 和 0.75。在本例中，我们将SiamMask与 CFNet[43]、SiamFC[23]、GOTURN[87]、CCOT[95]和MDNet[98]的基准结果进行了比较。结果如表8所示。与CFNet[43]（在竞争跟踪器中性能最佳）相比，SiamMask在所有考虑的指标上都具有显著优势。总的来说，SiamMask在类别数量众多的数据集上依然保持强劲表现，这应该被视为其泛化能力的积极信号。它的平均重叠度相对提升了37%，成功率最高可达150%。然而，很难对SiamMask与该基准测试报告的方法进行同类比较。一方面，基准测试报告的跟踪器是在同一数据集的训练集上进行训练的（该数据集据称是从与基准测试集相同的分布中采样的）。另一方面，除了“人”类之外，GOT-10k训练集不包含基准测试集中的任何其他类。为了简单起见，也为了与本文中的其他实验保持一致，我们没有强制进行相同的分离，因此我们没有关于两组之间类重叠的数据。在基于该基准测试进行比较时，应该考虑到这一点。

TrackingNet[5]是一个流行的大型视频基准测试集，包含511个视频，用于测试视觉对象跟踪算法。跟踪器根据成功率、跟踪精度和归一化精度的曲线下面积 (AUC) 进行排名。在此数据集上，SiamMask与ATOM[99]、MDNet[98]、CFNet[43]、SiamFC[23]和ECO[22]进行了比较。表9显示了监督方法的结果，表10显示了自监督方法的结果。同样可以看出，根据基准测试考虑的所有指标，SiamMask的表现均优于竞争对手。有趣的是，SiamMask甚至比ATOM[99]略有改进（+2.1%），后者可以在线调整用作特征提取器的网络参数。

在TrackingNet基准测试中，我们还将我们的方法与一些基于无监督学习的视觉跟踪器[62]、[64]、[66]进行了比较。结果如表10所示。不出所料，SiamMask在训练过程中可以利用数百万个边界框和掩膜标签，并取得明显更好的效果。

6.3 视频对象分割（VOS）评估

我们的模型一旦训练完毕，也可以用于VOS任务以获得具有竞争力的性能，而无需在测试时进行任何调整。重要的是，与典型的VOS方法不同，我们的模型可以在线操作、实时运行，并且只需要一个简单的边界框初始化。为了初始化SiamMask，从第一帧提供的掩码中提取一个轴对齐的边界框（图6所示的Minmax策略）（使用多个跟踪器实例跟踪和分割多个对象）。相反，VOS方法通常用二元掩码[9]初始化，其中许多方法在测试时需要计算密集型技术，例如微调[13]、[14]、[31]、[32]、数据增强 [33]、[34]、MRF/CRF 推理 [11]、[12]、[14]、[16] 和光流 [12]、[13]、[14]、[18]、[34]。因此，VOS技术通常需要几分钟才能处理短序列。显然，这些策略使得在线应用（这正是我们的重点）变得不可能。因此，在我们的比较中，我们主要关注快速VOS方法。

图10 SiamMask与DAVIS-2016数据集上流行的快速视频对象分割算法在平均IOU和速度（fps）方面的比较。

DAVIS-2016数据集上的结果。图10在DAVIS-2016数据集上比较了SiamMask与几种流行的快速 VOS方法的分割精度（y 轴）和速度（x 轴）。SiamMask表现出相当的精度，但运行速度明显快于其他方法（通常快一个数量级）。值得注意的是，SiamMask无需像OSMN[15]那样在线更新主干模型即可获得具有竞争力的精度。

表11 SiamMask与DAVIS 2016验证集上最先进的分割算法之间的比较：FT表示是否需要微调 (✓)；M表示视频分割是否使用蒙版 (✓) 或边界框 (✗) 初始化；速度以每秒帧数为单位

表11提供了更详细的比较分析，同时还考虑了速度较慢但性能更好的方法，例如OnAVOS和MSK。以下是一些说明：

OnAVOS[32]和MSK[13]的重叠度和轮廓精度全面领先。然而，它们执行在线模型更新的策略使其速度比SiamMask慢数百倍，并且无法实时运行。
与不执行在线模型更新的VOS方法（FAVOS[18]、RGMP[17]、SFL-ol[70]、PML[19]、OSMN[15]、PLM[100]和VPN[20]）相比，SiamMask具有更简单的初始化（边界框而不是像素级掩码）并且在速度方面具有重要优势。
重要的是，SiamMask在区域重叠率 (JD) 和轮廓精度 (FD) 的衰减方面均表现出色（最低值）。这表明SiamMask具有很强的时效稳定性，因此特别适合用于长序列。

DAVIS-2017和YouTube-VOS上的结果。表12和表13比较了SiamMask在另外两个VOS基准测试（DAVIS-2017和YouTube-VOS）上的表现。从表格结果来看，可以得出以下几点结论：

SiamMask的整体性能仍然不是最好的，但它的速度非常有竞争力，通常比OnAVOS和OSVOS等性能更高的方法快数百倍。
在DAVIS-2017数据集上，SiamMask再次展现出强大的时间鲁棒性（衰减程度较低）。只有速度较慢的FAVOS能够超越SiamMask。FAVOS会为不同的物体部分维护多个跟踪器，因此能够处理随时间自然发生的复杂变形。
在YouTube-VOS上，SiamMask出人意料地实现了可见类别集的最佳准确度。
仅次于SiamMask的第二快方法是OSMN，它使用元学习来执行快速的在线参数更新。然而，它在所有指标上的表现都较差。

一般性说明。DAVIS-2016、DAVIS2017和YouTube-VOS上的结果表明（表11、12和13），SiamMask可以快速实现具有竞争力的在线分割性能，并且仅需简单的边界框初始化，且在测试时无需进行任何自适应。此外，SiamMask (1) 比OnAVOS[32]和SFL[70]等精确分割算法快近两个数量级；(2) 比OSMN[15]和RGMP[17]等快速在线方法快约四倍；(3) 性能随时间衰减极低，这使其在长序列中有效。这些要点表明SiamMask可以作为在线视频对象分割和跟踪的强大基准。

6.4 多目标跟踪与分割的评估

表14 在YouTubeVIS验证集上对所提出的两阶段SiamMask和单阶段SiamMask的比较[35]
mAP指的是平均精度，而AR@10指的是10个候选框的平均召回率，以IoU阈值和类别为基准进行平均。dmAP和dAR10表示这两个指标之间的差异。HTC是用于初始化轨迹的现成分割方法[86]。

首先，我们在YouTubeVIS[35]的验证集上执行多对象跟踪和分割时验证了两阶段策略的有效性。表14显示了单阶段与两阶段方法的比较。在这两种情况下，每个目标对象实例化一个跟踪器，并使用现成的分割方法HTC[86]来初始化轨迹。可以看出，两阶段变体适度改善了结果，mAP绝对提高了1.5%，平均召回率提高了1.6%。我们认为这种改进归因于两阶段版本回归分支有助于限制要分割的区域，从而降低了mask分支的难度。

表15展示了SiamMask的两阶段版本与参加2019年YouTube-VIS挑战赛的算法（在测试集上[35]的比较。与YouTubeVIS组织者[35]提出的官方基准相比，SiamMask的两阶段版本将mAP提高了46%。尽管方法非常简单，SiamMask在排行榜上排名第二，仅次于[102]中描述的方法，该方法将VIS任务视为由四个不同的问题构成：检测、分类、分割和跟踪，并分别对它们进行求解。

表15 2019年YouTube-VIS排行榜
本次挑战赛使用的指标包括平均精度 (mAP)、固定IOU阈值5% 和75%下的平均精度（AP50和AP75），以及包含一个或十个候选框的平均召回率（AR1和AR10）。更多信息以及比赛中使用的所有方法的描述，请访问 https://youtube-vos.org/challenge/2019/leaderboard。

我们对SiamMask的简单调整无法有效处理的一个重要情况是混淆：当多个物体彼此非常接近时，将像素映射到身份时存在很高的不确定性，导致一个物体可能“劫持”另一个物体的掩码。解决这个问题的一个方法是对同一掩码内像素之间的关系进行建模（例如使用条件随机场或图神经网络），而不是单独处理每个像素。然而，这不可避免地会降低跟踪速度。

6.5 消融研究

我们进行了一系列消融研究来分析不同架构和多任务训练设置的影响。

表16比较了全卷积孪生框架的不同变体，指出了是否使用经典的AlexNet或ResNet-50作为骨干网络，是否使用了mask refinement策略（源自[30]），以及采用了哪种多任务配置。可以得出一些观察结果：

毫不奇怪，使用ResNet-50主干可以提供更好的性能，并且在速度方面成本合理。
使用相同的ResNet-50主干，SiamMask的双分支和三分支变体比各自的基线SiamFC和SiamRPN有所改进。
掩模细化对于提高分割任务中的轮廓精度非常有用。然而，它似乎并没有显著影响EAO跟踪指标。这并不奇怪，因为它只考虑了旋转的边界框，而这些边界框只是对实际物体边界的粗略近似。

表16 SiamMask在VOT-2018和DAVIS-2016数据集上的消融研究

我们进行了另外两个实验来理清多任务训练的效果，如表16所示。为此，我们在推理过程中修改了SiamMask的两个变体，使它们分别从分数分支（SiamMask-2branches-score）或框分支（SiamMask3branches-box）报告轴对齐的边界框。因此，尽管已经过训练，但在推理过程中不会使用mask分支。我们可以观察到这两个变体相对于它们的对应变体（SiamFC和SiamRPN）都获得了适度但有意义的改进：双分支的EAO从0.251增加到0.265，三分支的EAO从0.359增加到0.363。这可能表明，即使在不使用分割输出时，学习一项额外的任务也可以充当正则化器，尽管我们的实验设置太有限，无法自信地得出这样的结论。

6.6 定性示例

失败案例。定性地讲，我们观察到SiamMask在一些场景下表现相当糟糕。一种是极端运动模糊（例如图11左侧），这是由突然的相机运动或目标物体的快速移动引起的。由于标记本身预计会出现大量噪声，因此像SiamMask这样的监督式、仅离线训练的策略在这种情况下尤其容易受到影响。相反，当运动模糊不是极端时，SiamMask通常表现得相当好（例如，参见图14中的一些示例）。

正如前面提到的，在考虑多对象的情况时，由于SiamMask单独对像素进行建模，因此混淆（即不同对象的轨迹重叠时）是另一个非常具有挑战性的情况，即使我们只对一个目标感兴趣。

最后，一个相当病态但仍然重要的失败案例是，当选定的跟踪区域不是对应于一个物体，而是对应于一个纹理或物体的一部分时（例如，参见图11的右侧部分），就会遇到这种情况。鉴于SiamMask是在包含物体级标签的大型数据集上训练的，因此即使用户提供的初始化信息并非如此，它也会自然地偏向物体。

各种物体和形状。图12展示了一些针对不同类型和形状的物体进行掩膜预测的定性示例。总体而言，我们观察到SiamMask能够很好地适应各种物体和变形，即使在嘈杂的背景和非刚性变形的情况下也能提供相当准确的掩膜。

每个输出多个掩码。SiamMask为每个单独的RoW（候选窗口的响应）生成一个掩码。在跟踪过程中，从分类分支获得最高分数的行被视为对象所在的区域。分割分支预测与该区域对应的最终输出掩码。为了更清楚地观察掩码分支的预测结果，我们在图13中可视化了从同一搜索区域的不同行预测的掩码。

进一步的定性结果。为了定性分析SiamMask的跟踪和分割精度，我们展示了SiamMask对来自 VOT-2018、DAVIS-2016 和 2017以及Youtube-VIS数据集的一些具有挑战性的视频序列的视觉结果。

图14 SiamMask对视觉对象跟踪基准VOT2018中的序列蝴蝶、螃蟹1、iceskater1、iceskater2、motocross1、singer2、shaking和soccer1的定性结果。

图14显示了单目标跟踪基准VOT2018的序列。SiamMask在呈现重要非刚性变形的序列（如蝴蝶和 iceskater1）中保持了高精度。由于目标和背景之间的鲜明对比，蝴蝶是一个相当“简单”的序列，而iceskater1则具有挑战性，因为背景很复杂。对于快速移动的物体，即使存在干扰物（例如crabs1和iceskater2），SiamMask也可以生成准确的分割蒙版。然而，如前所述，当物体轨迹重叠时，SiamMask的条件会变得更具挑战性。视频目标分割算法通常对运动模糊和光照变化很敏感。相反，SiamMask为序列songsing2、shaking和soccer1产生了准确的蒙版，这些序列呈现出很大的光照变化和严重的运动模糊。

图15 SiamMask对对象分割基准DAVIS-2016和DAVIS-2017中的一些序列的定性结果。

图15展示了SiamMask对DAVIS-2016和DAVIS-2017中几个代表性序列的定性结果。对于视频对象分割任务，SiamMask能够有效适应尺度、视角和形状变化带来的挑战（例如，driftstraight和motocross-jump序列）。此外，它还能有效精确地处理目标对象的轻微遮挡（例如，bmx-trees和libby序列）。

图16 SiamMask的两阶段版本在Youtube-VIS的一些序列上的示例结果。

最后，图16可视化了我们在5中描述的两阶段SiamMask变体在YouTube-VIS的一些具有挑战性的视频上的一组积极结果，其中物体会发生变形、遮挡或快速运动。

7 结论

在本文中，我们介绍了SiamMask，这是一种简单的方法，它使全卷积孪生跟踪器能够生成目标对象的类别无关的二进制分割掩码。我们展示了如何将其成功应用于视觉对象跟踪和半监督视频对象分割任务，并显示出比大多数实时跟踪器更高的准确性，同时是VOS方法中速度最快的。我们提出的两种SiamMask变体均使用简单的边界框初始化，可在线操作、实时运行，并且不需要对测试序列进行任何调整。此外，通过级联两个模型，SiamMask可以轻松扩展为执行多对象跟踪和分割。我们希望我们的工作能够激发对多任务方法的进一步研究，将不同但密切相关的计算机视觉问题放在一起考虑。