南洋理工大学、上海人工智能实验室、利物浦大学和商汤科技的研究团队提出了一种灵活且统一的视频分割框架,Tube-Link,其兼具性能和推理速度上的优势,可以通过调整Tube的大小适配不同的视频分割数据集。 一种通用灵活的视频分割解决方案

视频分割任务是视觉场景理解的一个重要研究方向,其目标是对视频中的每个像素进行分割与跟踪。很多视频实例分割方法都是针对不同的数据集进行单独的架构上的专一设计。在ICCV 2023上,南洋理工大学、上海人工智能实验室、利物浦大学和商汤科技的研究团队提出了一种灵活且统一的视频分割框架,Tube-Link,其兼具性能和推理速度上的优势,可以通过调整Tube的大小适配不同的视频分割数据集。

论文名称:Tube-Link: A Flexible Cross Tube Framework for Universal Video Segmentation

论文地址:

 https://arxiv.org/abs/2303.12782

代码开源地址:

 https://github.com/lxtGH/Tube-Link

根据不同的图像分割任务的定义要求,视频分割也有三个不同的子任务,包括视频语义分割(Video Semantic Segmentation,VSS),视频实例分割(Video Instance Segmentation,VIS),以及视频全景分割(Video Panoptic Segmentation, VPS)。

视频语义分割只需要对视频中的每个像素进行分类,对于后两者,不仅要对每个实例像素进行分类,还需要跟踪。

由于任务的定义不同,现有的方法大部分都是针对特定的分割任务进行设计,比如视频的实例分割模型。

很多视频实例分割方法都是针对不同的数据集进行单独的架构上的专一设计。比如MiniVIS [3]提出了直接使用图像训练的实例分割模型加二部图匹配做视频实例分割,IDOL [4]提出了用online的方法加对比学习损失的方式做视频实例分割。

本文的主要的研究目标是Universal Video Segmentation,即只使用一个视频分割模型,在多个不同的视频分割任务对应的数据集上取得不错的效果。

相比于图像分割,视频分割任务统一的难点在于视频的场景多样性更大、长度不统一、场景的内容多变,以及时序信息的冗余性。

例如,最近有研究人员提出了一个更加复杂的数据集,VIP-Seg [5]。这个数据集引入更多的场景以及多样性的视频输入,给视频分割领域带来了更大的挑战。

除此之外,近期也有两个代表性的工作包括Video K-Net [1]和TubeFormer [2]提出了统一的视频分割建模框架,但是其在各个不同分割任务上性能也没法取得领先的结果。

此外,在分割推理的时候,目前市面上有两种不同的推理模式,包括在线推理(online)和多帧接近在线推理(near online), 前者适合长视频输入以及复杂的场景输入,后者适合短视频、简单场景处理。

那么有没有一种方法可以灵活支持两种不同的视频输入,针对不同的场景视频可以在视频的输入端进行调优?

Tube-Link 大致流程介绍

Tube-Link首先把输入的视频(video clip)切分成不同的子视频(sub-clip)。针对每个子视频,Tube-Link 会使用基于Mask2Former-VIS 改进的结构进行处理,得到其对应的global object queries 以及对应的掩码输出(Tube-Masks)。

此后,我们使用Tube Association (基于Tube的关联)把不同sub-clip对应的tube-masks连接起来,相比于帧级别的匹配,使用Tube去match会使分割的效果更加稳定。

如何更好学习连接不同的tube mask 中对应的global object queries是本文的研究重点。整个过程看着连接多个不同的tube masks,为此我们的框架叫做Tube-Link。

如图1下方所示,我们的方法在多个不同的视频分割任务上取得了比以往单独设计架构更好的结果。

Tube-Link_ide

图1 Tube-Link框架示意图

此外,本文还尝试把两个不同的方法,用tube-match替换frame-match,如表1所示,在没有经过任何训练的情况下,本文的方法可以取得稳定的性能提升。

Tube-Link_数据集_02

表1 使用Tube-match的探索实验表格

这里也验证了我们的想法,使用Tube-Match会取得更好的视频分割效果,因为Tube Mask 里面包含更多时序信息,为此我们考虑采用Tube Match的方式构建我们的基准方法。

学习不同Tube的关联性

本文使用的基准方法是Mask2Former-VIS [6, 7],即使用sub-clip作为网络的输入,得到对应的Tube Masks。Mask2Former-VIS会使用Masked-Attention迭代地优化,如公式(1)所示。

Tube-Link_Mask_03

其中,Q 代表每个global queries,l 代表迭代优化的层数。

使用该基准方法,我们可以得到每个sub-clip输出对应的Tube Masks 以及对应的global queries。

得到每个Tube Mask和global queries后,本文提出了两种不同的学习tube的关联性的策略方法:

第一种是直接使用Self-Attention模块学习,即使用Self-Attention把不同tube masks对应的global queries进行强制关联。

第二种使用对比学习的方式来优化不同的Global Queries之间的关联性。如图2所示,本文使用Tube-Mask判别不同的Global Queries的正分样本的比例。

Tube-Link_Mask_04

图2 使用Tube-Mask学习不同的Global Queries的关联性

其中,我们使用对比学习损失函数来增强不同queries的实例关联性,即把不同的tube mask的对应的同一个实例距离拉近,不同实例之间的距离拉远,如公式(2)所示。

Tube-Link_ide_05

其中,选择合理的训练样本是这个模型设计的关键。本文通过计算每个global query 预测的Tube-Mask 与 Ground Truth对应的Tube-Mask 的IoU来选择合理的训练样本,只有大于一定阈值的global queries 才真正地参与到优化上。

训练与推理

如图3所示,本文提出的方法会使用多帧的sub-clip作为输入,得到对应的tube-masks输出。不同的tube之间会使用对比损失函数来优化global queries的实例判别性质。每个tube都使用分割的损失函数。

Tube-Link_ide_06

图3 Tube-Link的训练示意图

表2 详细对比了多个不同的视频分割方法特性,相比于之前方法,本文提出的Tube-Link 采用Global Query Matching,更好地使用了多帧信息。当输入的tube window为1时,本方法退化成为online的形式。

Tube-Link_人工智能_07

表2 不同的视频分割方法对比

实验结果

从表3和表4可见,本文提出的方法在两个不同的分割任务上取得了领先的效果。尤其是在VIP-Seg数据集上,本文提出的方法比之前的Video K-Net提了接近10个点。在YouTube-VIS数据集上,本文提出的方法比之前最优的方法IDOL提升3-4个点。

Tube-Link_Mask_08

表3 VIPSeg实验结果对比

Tube-Link_人工智能_09

表4 Youtub-VIS实验结果

由于本文提出的方法是universal,本文的方法也可以泛化到更多的视频分割任务、更复杂的场景上,例如表5和表6。在KITTI-STEP的长视频输入上,我们的方法也可以取得和Video K-Net相当的结果。

Tube-Link_Mask_10

表5 VSPW-VSS数据集结果

Tube-Link_Mask_11

表6 KITTI-STEP实验结果

更多的实验结果可以参考原始的论文。

总结

Tube-Link是一个通用的视频分割框架,可以支持更加灵活的视频输入,我们认为该方法为未来视频与图像分割的大模型打下了坚实的基础,即未来的分割模型可以把所有的分割任务,包括视频、图像,以及文本描述驱动的所有子任务全部统一,通过我们的tube的灵活可变性,可以实现同时训练视频、图像数据。