Video Instance Segmentation

最新推荐文章于 2025-04-10 18:40:35 发布

TheTop1

最新推荐文章于 2025-04-10 18:40:35 发布

阅读量4.6k

点赞数

分类专栏：实例分割 # Mask R-CNN 文章标签：计算机视觉 python

本文链接：https://blog.csdn.net/qq_43593277/article/details/123591027

版权

实例分割同时被 2 个专栏收录

7 篇文章

订阅专栏

Mask R-CNN

6 篇文章

订阅专栏

Abstract

本文提出了一种新的计算机视觉任务——视频实例分割。这个新任务的目标是同时检测，分割和跟踪视频中的实例。这是首次将图像实例分割问题扩展到视频领域。为了便于对这个新任务的研究，我们提出了一个名为YouTube- vis的大规模基准测试，它由2,883个高分辨率YouTube视频、40个类别标签集和131k个高质量实例掩码组成。此外，我们提出了一种新的算法，称为MaskTrack R-CNN的任务。我们的新方法在Mask R-CNN中引入了一个新的跟踪分支，同时执行检测、分割和跟踪任务。最后，我们在我们的新数据集上评估了所提出的方法和几个强基线。实验结果表明了该算法的优越性，为今后的改进提供了思路。我们相信视频实例分割任务将激励社区沿着视频理解的研究路线。

1、Introduction

在这里插入图片描述

图像和视频的分割是计算机视觉的基本问题之一。在图像领域，实例分割的任务，即同时检测和分割图像中的对象实例，是Hariharan et al.[11]首先提出的，此后由于其重要性在计算机视觉中受到了极大的关注。在本文中，我们将图像域的实例分割问题扩展到视频域。与图像实例分割不同，该问题是针对视频中对象实例的同时检测、分割和跟踪。图1展示了一个示例视频，其中对这个问题进行了ground truth注释。自然，我们将这个新任务命名为视频实例分割。这项新任务为需要视频级对象掩码的应用打开了可能性，比如视频编辑、自动驾驶和增强现实。据我们所知，这是第一个解决视频实例分割问题的工作。
视频实例分割比图像实例分割更具挑战性，它不仅需要对单个帧进行实例分割，还需要对跨帧的实例进行跟踪。另一方面，视频内容包含了比单一图像更丰富的信息，如不同目标的运动模式、时间一致性等，从而为目标识别和分割提供了更多线索。视频实例分割还涉及到几个已有的任务。例如，视频对象分割[3,22,23]的目标是分割和跟踪视频中的对象，但不需要识别对象类别。视频目标检测的目的是检测和跟踪目标，但不涉及目标分割。
视频实例分割研究较少的一个潜在原因是缺乏大规模的数据集。尽管其他任务中存在视频分割数据集[7,23,35]，但没有一种数据集直接适用于视频实例分割。给定一个视频，我们的任务需要预定义类别集的所有实例的掩码和跨帧的实例身份被标记。现有的视频分割数据集要么没有exhaustive labeling[23,35]，要么没有object identities[7]。因此，在本文中，我们提出了第一个大规模的数据集，名为YouTube-VIS，用于视频实例分割。新的数据集包含2883个高分辨率的Y ouTube视频，40个类别的标签集，包括常见的对象，如人、动物和车辆，4883个独特的视频实例和131k高质量的masks。我们的新数据集不仅可以作为视频实例分割任务的基准，还可以作为视频语义分割和视频目标检测等相关任务的基准。
此外，我们提出了一种新的算法，称为MaskTrack R-CNN用于视频实例分割。在当前最先进的图像实例分割方法Mask R-CNN[12]的基础上，在框架中增加了一个新的分支，用于跨视频帧跟踪实例。预测实例被存储到外部内存中，并与后面帧中的对象匹配。此外，我们还通过将相关任务的最佳性能方法引入到我们的任务中，提出了几个基线，并将它们的性能与我们的新方法进行了比较。实验结果清楚地证明了我们的新算法的优势，并为未来的改进提供了启示。我们的数据集已经发布在 https://youtube-vos.org/dataset/vis上。我们的算法代码发布在 https://github.com/youtubevos/MaskTrackRCNN上
我们总结了本文的贡献如下：
（1）据我们所知，这是第一次对视频实例分割进行正式的定义和探讨。
（2）我们创建了第一个包含2.9万个视频和40个对象类别的大规模视频实例分割数据集。
（3）我们提出了一种新的视频实例分割算法，并将其与我们新数据集上的几个基线进行了比较。
本文的其余部分组织如下。在第2节中，我们简要说明了相关任务和新任务之间的区别。在第3节中，我们正式介绍了视频实例分割问题和评价指标。我们的新数据集和算法分别在第4节和第5节中阐述。最后，在第6节给出了实验结果。

2、Related Work

虽然视频实例分割在文献中一直被忽视，但图像实例分割、视频对象跟踪、视频对象检测、视频语义分割和视频对象分割等相关任务已经得到了很好的研究。

Image Instance Segmentation

实例分割不仅将像素分组到不同的语义类中，还将它们分组到不同的对象实例[11]中。通常采用两阶段范式，首先使用区域提议网络(RPN)[24]生成对象提议，然后使用聚合的RoI特征预测对象bounding boxes和masks[8,15,12]。提出的视频实例分割不仅需要分割每一帧中的对象实例，还需要确定跨帧对象的对应关系。

Video Object Tracking

视频对象跟踪有两种不同的设置。一种是基于检测的跟踪，它同时对视频对象进行检测和跟踪。这种设置下的方法[26,33,28]通常采用“检测跟踪”策略。另一个设置是detection-free tracking[1,19,9]，它的目标是在第一帧给定目标的初始边界框时跟踪目标。在这两种设置中，DBT更类似于我们的问题，因为它也需要一个检测器。而DBT只需要生成bounding boxes，这与我们的任务不同。最近，我们提出了一个多目标跟踪和分割数据集[32]来评估多目标跟踪和实例分割。在详尽的视频实例注释方面，他们的数据集类似于我们的YouTube-VIS，但在数据规模和对象类别方面远远不如我们的。

Video Object Detection

视频对象检测的目的是检测视频中的对象，这是ImageNet视觉挑战赛[25]中首次提出的。虽然通常利用目标身份信息来提高检测算法的鲁棒性[9,37,34]，但评估指标仅限于逐帧检测，不需要联合目标检测和跟踪。

Video Semantic Segmentation

视频语义分割是语义分割到视频的直接延伸，将图像像素预测为不同的语义类。利用光流(optical flow)等时间信息来提高语义分割模型的精度[37]和效率[37,16,27]。视频语义分割不需要跨帧对象实例的显式匹配。

Video Object Segmentation

视频对象分割近年来得到了广泛的关注，主要有两种情况:半监督和无监督。半监督视频对象分割[21,3]的目标是使用mask跟踪和分割给定对象。提取视觉相似性[3,5,31]、运动线索[6]和时间一致性[21,36]，以识别视频中的同一对象。在无监督的场景中，一个前景对象被分割[29,14,30]。在这两种设置中，算法都将目标对象视为一般对象，不关心语义类别。

3、Video Instance Segmentation

Problem Definition

在视频实例分割中，我们有一个预定义的类别标签集C={1，…，K}，其中K是类别数。给定一个具有T帧的视频序列，假设视频中有N个对象属于类别集C。对于每个目标i，让 $c^{i} \in C$ 表示其类别标签，让 $m_{p...q}^{i}$ 表示视频中的二进制分割masks，其中 $\in [1,T]$ 和 $q\in[p,T]$ 表示开始时间和结束时间。假设视频实例分割算法产生H个实例假设。对于每个假设j，需要有一个预测类别标签 $\hat{c}^{j}\in C$ ,一个置信分数 $s^{j}\in [0,1]$ 和一组预测的二元masks $\hat{m}^{j}_{ \hat{p}...\hat{q}}$ 。置信分数用于我们的评估指标，稍后将对其进行解释。
我们任务的目标是最小化基本事实和假设之间的差异。换句话说，一个好的视频实例分割方法应该能够对所有实例具有良好的检测率，可靠地跟踪所有实例，并准确地定位实例边界。应该注意的是，我们的任务和多对象跟踪问题[18]之间有一些细微的区别，因为静止对象实例被视为ground truth情况，如果一个对象在几个帧中被遮挡或不在场景中，然后在接下来的帧中重新出现，实例标签应该是一致的。

Evaluation Metrics

我们借用了图像实例分割中的标准评估指标，并根据新任务进行了修改。具体来说，指标是平均准确度（AP）和平均召回率（AR）。AP定义为精确召回率曲线下的面积。置信度得分用于绘制曲线。 AP是在多个联合交叉点（IoU）阈值上的平均值。我们遵循COCO评估，在step 5%中使用50%到95%的10个IoU阈值。 AR定义为给定每个视频一定数量的分段实例的最大召回率。这两个指标首先按类别进行评估，然后在类别集上求平均值。我们的IoU计算不同于图像实例分割，因为每个实例都包含一系列masks。要计算一个ground truth实例 $m^{j}_{ p...q}$ 和一个假设实例 $\hat{m}^{j}_{ \hat{p}...\hat{q}}$ ，我们首先通过填充空的masks，将 $p$ 和 $\hat{p}$ 扩展到1，将 $q$ 和 $\hat{q}$ 扩展到T
在这里插入图片描述
提出的IoU计算预测和ground truth分割的时空一致性。如果该算法成功检测到对象masks，但未能跨帧跟踪对象，它将获得较低的IoU。

4、YouTube-VIS

在这里插入图片描述

由于现有的视频分割数据集都不符合我们的视频实例分割任务的要求，我们需要收集一个新的基准数据集来开发和评估所提出的方法。新基准需要满足几个标准。首先，它应该包含常见的实例类别，就像最近的图像实例分割基准[17,11]。其次，它应该包含具有各种挑战性情况的视频实例，例如遮挡、外观变化、重镜头运动等。最后但并非最不重要的一点是，注释质量也应该很高，这在一些现有的基于多边形注释的分割数据集中是一个常见问题。
考虑到上述标准，我们创建了一个新的大型基准，名为YouTube VIS。我们没有从头开始构建基准，而是利用了一个名为YouTube VOS的现有数据集[35]。YouTube VOS是一个大型视频对象分割数据集，由4453个高分辨率YouTube视频和94个常见对象类别组成。在每个视频中，通过以30fps的帧速率每5帧手动跟踪对象边界来标记多个对象。每个视频的长度约为3到6秒。尽管在YouTube VOS中没有对对象mask进行详尽的标记，但它仍然是构建我们自己的数据集的一个很好的资源。具体来说，我们首先从94个类别标签中选择40个常见类别标签作为我们的类别集。然后，我们从YouTube VOS上的40个类别中抽取了大约2.9k个视频样本。然后，我们要求人类注释者仔细标记这些视频中属于类别集的其他对象。因此，我们的数据集用4883个独特的对象和大约131k个对象mask进行注释。表1显示了YouTube VIS和相关数据集的一些高级统计数据的比较。数据集中每个类别的唯一对象的分布如图2所示。
我们的新数据集YouTube VIS不仅是第一个用于视频实例分割的大型基准，而且也是其他视觉任务（如视频对象检测和视频语义分割）的有用基准。它还使用更多对象来补充原始YouTubeVOS数据集。我们相信，我们的新数据集将成为各种像素级视频理解任务的有用基准。

5、MaskTrack R-CNN

我们的视频实例分割新算法是基于Mask R-CNN[12]构建的。除了最初用于对象分类、边界框回归和mask生成的三个分支外，我们还将第四个分支与外部内存一起添加，以跨帧跟踪对象实例。跟踪分支主要利用外观相似性提示。此外，我们还提出了一种简单而有效的方法，将其与语义一致性和空间相关性等其他线索相结合，以大幅提高跟踪精度。我们算法的整体框架如图3所示。为了进行推断，我们的方法以在线方式顺序处理视频帧。接下来，我们首先简要回顾Mask RCNN，然后详细描述我们的新组件。

5.1 Mask R-CNN

Mask R-CNN是一种高性能的图像实例分割方法。它包括两个阶段。在第一阶段，RPN[24]将图像作为输入，并提出一组候选对象边界框。在第二阶段中，通过RoIAlign操作从每个候选框中提取特征，然后通过三个专用分支并行执行分类、边界框回归和二值分割。有关更多详细信息，请参阅[12]。

5.2 New Tracking Branch

我们的网络采用相同的两阶段程序，第一阶段相同，在每一帧提出一组对象边界框。在第二阶段，与三个分支（即分类、包围盒回归、二进制分割）并行，我们添加第四个分支，为每个候选框指定一个实例标签。假设我们的算法已经从之前的帧中识别了N个实例。然后，如果新的候选框是以前的实例之一，则只能将其分配给N个标识中的一个，如果它是新实例，则只能将其分配给新标识。有N+1个分类数字，代表N个已识别的实例，还有一个新的不可见实例，由数字0表示。将标签n分配给候选框i的概率定义为：
在这里插入图片描述
其中 $f_{i}$ 和 $f_{j}$ ， $\in [1,N]$ 表示我们的跟踪分支从候选框和N个已识别实例中提取的新特征。我们的跟踪分支有两个完全连接的层，它们将RoIAlign提取的特征图投影到新特征中。由于之前识别的实例的特征已经被计算出来，为了提高效率，我们使用外部内存来存储它们。交叉熵损失用于外跟踪分支，即 $L_{track}=-\sum_ilog(p_{i}(y_{i}))$ ，其中 $y_{i}$ 是ground truth实例标签。
当一个新的候选框被分配一个实例标签时，我们动态地更新外部内存。如果候选框属于现有实例，我们将使用新的候选特征更新存储在内存中的实例特征，新的候选特征代表实例的最新状态。如果为候选对象分配了标签0，我们会将候选对象的特征插入内存，并将1添加到已识别实例的数量中。我们需要一系列帧来训练新的跟踪分支。在我们的实现中，我们使用从训练视频中随机抽样的一对帧。其中一个帧被随机选取为参考帧，而另一个帧被选取为查询帧。在参考框架上，我们不生成任何候选框，只从其ground truth实例区域提取特征，并将其保存到外部存储器中。在查询帧上，第一阶段生成候选框，然后只将正候选框与内存中的实例标签匹配，从而可以跟踪loss。正候选框是指与任何ground truth对象框至少有70%IoU重叠的框。我们的整个网络都经过端到端的训练，四个分支的损失加在一起 $L=L_{cls}+L_{box}+L_{mask}+L_{track}$ 。

5.3 Combining Other Cues

我们的跟踪分支根据外观相似性计算将实例标签分配给候选框的概率。然而，还有其他信息，例如语义一致性、空间相关性和检测可信度，可以用来确定实例标签。我们提出了一种简单而有效的方法，将所有这些线索结合在一起，以提高跟踪精度的后处理方式。
具体来说，对于一个新的候选框i，让 $b_i,c_i,s_i$ 表示其边界框预测、类别标签和检测分数，它们是从网络的边界框分支和分类分支获得的。类似地，对于标签为n的已识别实例，让 $b_{n}$ 和 $c_{n}$ 表示其边界框预测和与内存中保存的特征相关联的类别标签。然后，将标签n分配给候选框i的分数计算为：
在这里插入图片描述
式中， $p_{i}(n)$ 由公式2获得， $IoU(b_i,b_n)$ 计算 $b_i$ 和 $b_n$ 之间的IoU， $\delta(c_i,c_n)$ 是一个Kronecker delta函数，当 $c_i$ 和 $c_n$ 相等时等于1，否则等于0。α、 β和γ是平衡不同线索影响的超参数。经验上，我们发现分数对α和β的不同值不敏感。
请注意，等式3仅在测试阶段使用，对我们的网络训练没有帮助。还有其他可能的方法来整合这些线索，例如，将所有线索作为输入，训练一个端到端的网络，这将留给我们作为一个有趣的未来研究。

5.4 Inference

给定一个新的测试视频，我们的外部内存设置为空，识别的实例数设置为0。我们的方法以在线方式顺序处理每一帧。在每一帧，我们的网络首先生成一组实例假设。请注意，我们不会在单个框架内匹配假设以避免冲突。将第一帧的所有实例假设直接视为新实例并保存到外部存储器中。我们的方法可以将多个假设从一个框架匹配到一个实例标签，这与常识相矛盾。
我们处理这种情况时，只保留一个在相互冲突的假设中得分最高v的假设，而放弃其他假设。
在处理所有帧后，我们的方法生成一组实例假设，每个假设包含一个唯一的实例标签，以及一系列二进制分割、类别标签和检测置信度。我们使用平均检测置信度作为整个序列的置信度得分，并使用类别标签的多数投票作为实例的最终类别标签。

6、Experiments

在本节中，我们将MaskTrack R-CNN与新数据集YouTube VIS上的几个基线进行比较。我们首先介绍数据集拆分的信息和我们方法的实现细节。

Dataset

我们将Y ouTube VIS数据集随机分成2238个训练视频、302个验证视频和343个测试视频。每个验证和测试集保证每个类别有超过4个实例。所有方法都在训练集上训练，所有超参数都在验证集上交叉验证。我们在结果部分展示了验证集和测试集的结果。

Implementation

我们的网络主干基于[12]中ResNet-50-FPN的网络结构，我们使用了一个公共实现[4]，它是在MS COCO[17]上预先训练的。我们新跟踪分支的结构是两个全连接层。第一个全连接层将7×7×256输入特征映射转换为一维1024维。第二个全连接层也将其输入映射到一维1024维。我们的完整模型在12个epochs内进行了端到端的训练。初始学习速率设置为0.05，并在第8和第11个epoch以10因子衰减。在测试中，我们的模型使用NVIDIA 1080Ti GPU以每秒20帧的速度运行。对方程3中的超参数α、β和γ进行交叉验证，并选择其为1、2和10，以得出最终结果。在训练和评估中，我们将所有方法的原始帧大小减少到640×360。

6.1 Baselines

据我们所知，之前没有任何工作直接适用于我们的新任务。因此，我们结合相关任务的想法，提出了几个新的基线。我们为基线合并了两种算法。第一种类型使用在视频的第一帧中检测到的对象mask作为初始引导，并应用视频对象分割算法来传播mask。我们评估了最近的两种视频对象分割算法OSMN[36]和FEEL VOS[31]。第二种类型遵循多目标跟踪任务中非常流行的“检测跟踪”思想。这类作品的基本思想是在每一帧上独立地使用图像检测方法，然后通过各种跟踪方法将跨帧检测连接起来。在我们的实验中，所有基线都给出了相同的每帧实例分割结果，这些结果是由Mask R-CNN生成的。Mask R-CNN的结构与我们的网络相同，只是跟踪分支不同。为了公平评估，Mask R-CNN在MS COCO进行了预训练，然后在YouTube VIS上进行了12个训练时段的微调。接下来，我们在实验中描述了不同的跟踪检测方法。

IoUTracker+

该方法通过使用与等式3类似的等式计算新候选框与每个已识别实例之间的分数，但不使用第一项，即外观相似性。因此，匹配不会利用任何视觉信息。候选框被分配给得分最高、IoU阈值最低（30%）的实例标签。否则，它将被视为带有新标签的签名。匹配过程类似于IoUTracker[2]。不同之处在于，与我们的方法一样在内存配备了基线，以保存已识别实例的信息。

OSMN

给定一个已识别的实例mask，OSMN在一个新帧上估计实例的一个新mask。然后，使用新的mask计算同一帧上具有候选框的IoU。这比通过连续帧直接计算IoU要好，尤其是当实例被遮挡或有大运动时。匹配过程的其余部分与IoUTracker+相同。

DeepSORT

DeepSORT是一种性能最好的跟踪方法。它使用卡尔曼滤波器预测bounding box的位置，避免直接计算连续帧的IoU。此外，它使用深度网络来测量边界框之间的外观相似性。最后，通过匈牙利算法将IoU分数和视觉外观分数结合起来匹配轨迹。

SeqTracker

这是一个遵循SeqNMS[10]的离线算法。给定每一帧的一个视频和一组实例分割结果，SeqTracker搜索所有可能的轨迹，以找到得分最大的轨迹，其计算方法与IoUTracker+类似。然后，轨迹的实例分割将从集合中移除，并重复搜索过程。该方法会暂停，直到检索到的轨迹长度小于阈值（在我们的实验中设置为8）。

6.2 Main Results

在这里插入图片描述

表2给出了比较结果。值得注意的是，我们的方法MaskTrack R-CNN在所有评估指标下以及在验证集和测试集上都取得了最佳结果。我们的方法与其他基于检测基线的跟踪方法的主要区别在于，新的跟踪分支与其他分支进行端到端的训练，以便在多个任务之间共享有用的信息。跟踪与其他任务联合训练的关键在于，我们将实例匹配过程描述为一个可微的组件，这使得匹配损失能够正确地反向传播。
接下来，我们分析基线的性能。对于mask propagation算法，它们有一个天生的缺点，即无法处理中间帧中出现的对象。此外，第一帧中有缺陷的检测直接降低了它们的性能。即使是最先进的视频对象分割算法FEELVOS在验证集上也只能获得26.9 AP。对于track-by-detect算法，IoUTracker+不利用任何视觉信息，因此性能不佳也就不足为奇了。OSMN在新的帧中预测先前识别的实例的可能位置，并使用该预测来匹配实例，这对于处理遮挡和快速运动非常有用。DeepSORT在IoU匹配和视觉相似性使用方面改进了IoUTracker+，获得了更好的结果。SeqTracker不依赖任何视觉信息，与其他基线相比，其性能更好。然而，它是一种离线方法，要求对所有帧预计算实例分割结果。包括MaskTrack RCNN在内的其他方法是在线方法，它们按顺序生成实例轨迹。
图4显示了我们预测的六个示例视频。前四行((a)、(b)、©和(d))是成功预测，后两行是失败案例。在视频（a）中，帧级预测在前两帧中给出了错误的结果，其中熊被预测为“鹿”和“无耳海豹”。视频级别预测通过所有帧的多数投票来纠正这些错误。在视频（c）中，冲浪板在多帧中被海浪遮挡，我们的算法能够在冲浪板消失和再次出现后跟踪冲浪板。MaskTrack R-CNN中的内存队列能够跟踪所有以前的对象，即使它们在中间帧中消失。在视频（d）中，我们展示了新对象在中间帧中进入视频的情况。ur算法能够将第二帧中的鹿检测为新对象，并将其添加到外部存储器中。视频（e）和（f）显示了两个具有挑战性的案例。在视频（E）中，鹿在不同的姿势中有着完全不同的外观，并且我们的算法无法识别相同的对象并认为它们是两个不同的对象。在视频（f）中，多条类似的鱼在水族馆里四处游动，并相互遮挡。我们的算法在第二帧和第三帧中将两条鱼分成一组，并在稍后与对象身份混淆。

6.3 Ablation Study

在这里插入图片描述

我们研究了等式3中使用的三个线索对我们的方法的重要性。它们是检测分数、bouding box IoU和类别一致性。我们通过打开和关闭这些cues，在验证集上评估我们的方法。结果如表3所示。我们发现，边界框IoU和类别一致性对我们的方法的性能最为重要。如果没有它们，AP将下降5%左右。而检测置信度评分只对我们的方法略有改进。直观地说，边界框IoU与实例之间的空间关系相关，这在许多情况下是一个强先验。类别一致性还提供了非常强的约束，因为实例的类别标签在视频中不应更改。然而，过多地依赖这些因素也会由于估计的不完善而导致问题。因此，我们的方法使用这些线索作为软约束。为了可视化这三个因素的影响，我们还通过在一个特定样本上逐个添加这三个因素来生成预测，如图5所示。请注意，前三种变体无法很好地跟踪“绿色”摩托车的身份，而带有四种不同提示的变体能够在整个视频中跟踪它。

6.4 Oracle Results

在这里插入图片描述
此外，我们还研究了算法中两个部分的有效性：图像级预测和交叉帧关联。我们通过在我们的算法中应用ground truth图像级注释来评估视频级关联的有效性。具体地说，给定包括边界框、遮罩和类别在内的地ground truth图像级预测，我们使用地面真值边界框的RoIAlign特征计算匹配分数 $p_i$ ，并使用组合分数 $v_i$ 跨帧匹配对象。结果如表4所示，带有“Image Oracle”。我们还使用ground truth物体身份评估图像级预测。为此，每帧预测首先与其最近的ground truth图像对象匹配，然后使用ground truth对象标识聚合视频对象。结果如表4所示，带有“Identity Oracle”。结果表明，Image Oracle比Identity Oracle具有更好的性能，这意味着图像级预测对于视频实例分割的更好性能至关重要。Identity Oracle仅略优于MaskTrack RCNN，这表明通过修改对象跟踪方法改进当前方法的潜力有限。利用适当设计的时空特征来提高图像级检测性能可能是一个很有前途的方向。同时，即使有图像级的ground truth，由于对象遮挡和快速运动，跨帧关联对象仍然具有挑战性。

7、Conclusion

在这项工作中，我们提出了一个名为视频实例分割的新任务和一个名为Y ouTubeVIS的伴随数据集。新的任务是目标检测、分割和跟踪的结合，鉴于丰富复杂的场景，这会带来特定的挑战。我们还提出了一种结合单帧实例分割和目标跟踪的新方法，旨在为这项任务提供一些早期探索。有几个有趣的未来方向：具有时空特征的目标提议和检测，端到端可训练的匹配标准，以及结合运动信息以更好地识别和身份关联。我们相信，新任务和新算法将在视频理解的新研究思路和方向上创新研究界。非最大值抑制（NMS）（50%重叠阈值）用于减少假设。然后，剩余的假设通过等式3与先前帧中确定的实例相匹配。