尽管统一图像分割取得了很不错的进展,但开发统一视频分割模型仍然是一个挑战。这主要是因为不同视频分割任务的侧重点不同,这使得使用相同架构处理不同任务变得异常困难,尤其在保持物体时序一致性方面。具体来说,类别为导向的视频分割任务更侧重检测并跟踪视频中特定类别的对象,而以提示为导向的 VS 任务侧重于在根据视觉/文本提示在视频中重新识别目标。
近日, 由香港理工大学和 OPPO 研究院提出了一种新颖且简洁的统一视频分割架构,名为 UniVS,旨在通过使用视觉和文本提示作为查询来明确地解码物体的掩码。对于每一个目标物体,UniVS 取先前帧中的提示特征的平均值作为其初始查询,从而明确地解码出目标物体的掩码。
同时,本文在掩码解码器中引入了一个目标感知的提示交叉注意力层,以传递内存池中的提示特征到当前帧中。在推理阶段,通过将先前帧中预测的物体掩码作为它们的视觉提示,UniVS 将不同的视频分割任务转化为以提示为导向的目标分割,消除了启发式的帧间匹配过程。
本文提出的框架不仅统一了不同的视频任务,还自然地实现了统一的训练和测试,确保在不同场景下具有稳健的性能。在视频实例、语义、全景、对象和文本指代分割任务的 10 个具有挑战性的 VS 基准测试上,UniVS 取得了非常不错的视频分割性能,并且在多个场景下展示了其强大的通用能力。
论文地址:
https://arxiv.org/abs/2402.18115
代码地址:
https://github.com/MinghanLi/UniVS/
项目主页:
https://sites.google.com/view/unified-video-seg-univs
引言
视频分割(VS)将视频序列划分为不同的区域或片段,为视频理解、区域引导的视频生成、交互式视频编辑和增强现实等许多应用提供了便利。视频分割的任务可以分为两组:类别指定的视频分割和提示指定的视频分割。前者侧重于从预定义的类别集合中分割和跟踪实体。
典型的任务包括视频实例分割(VIS)、语义分割(VSS)和全景分割(VPS),其中需要指定对象类别信息。另一组任务侧重于在整个视频中识别和分割特定目标,需要提供目标的视觉提示或文本描述。提示导向的 VS 任务包括视频对象分割(VOS)、全景视频对象分割(PVOS)和引用式视频对象分割(RefVOS)。每种 VS 任务都有自己的数据集注释和模型评估协议。
▲ 图1. 比较现有的视频分割方法和 UniVS。在现有的类别指定分割任务方法中(a1),需要首先在每帧中检测实体,然后在帧间进行匹配;