CVPR 2024 | 港理工联合OPPO提出统一且通用的视频分割大模型

825f585bbb34bc25274215eec09599de.gif

41a8f6a71c6b58cfe7ba976a3d04e4eb.png

尽管统一图像分割取得了很不错的进展,但开发统一视频分割模型仍然是一个挑战。这主要是因为不同视频分割任务的侧重点不同,这使得使用相同架构处理不同任务变得异常困难,尤其在保持物体时序一致性方面。具体来说,类别为导向的视频分割任务更侧重检测并跟踪视频中特定类别的对象,而以提示为导向的 VS 任务侧重于在根据视觉/文本提示在视频中重新识别目标。

近日, 由香港理工大学和 OPPO 研究院提出了一种新颖且简洁的统一视频分割架构,名为 UniVS,旨在通过使用视觉和文本提示作为查询来明确地解码物体的掩码。对于每一个目标物体,UniVS 取先前帧中的提示特征的平均值作为其初始查询,从而明确地解码出目标物体的掩码。

同时,本文在掩码解码器中引入了一个目标感知的提示交叉注意力层,以传递内存池中的提示特征到当前帧中。在推理阶段,通过将先前帧中预测的物体掩码作为它们的视觉提示,UniVS 将不同的视频分割任务转化为以提示为导向的目标分割,消除了启发式的帧间匹配过程。

本文提出的框架不仅统一了不同的视频任务,还自然地实现了统一的训练和测试,确保在不同场景下具有稳健的性能。在视频实例、语义、全景、对象和文本指代分割任务的 10 个具有挑战性的 VS 基准测试上,UniVS 取得了非常不错的视频分割性能,并且在多个场景下展示了其强大的通用能力。

29c3b8d40d15130677a99996429b13bc.png

论文地址:

https://arxiv.org/abs/2402.18115

代码地址:

https://github.com/MinghanLi/UniVS/

项目主页:

https://sites.google.com/view/unified-video-seg-univs

01e8f56d4f4320e86e1c0ae0a94f5839.png

引言

视频分割(VS)将视频序列划分为不同的区域或片段,为视频理解、区域引导的视频生成、交互式视频编辑和增强现实等许多应用提供了便利。视频分割的任务可以分为两组:类别指定的视频分割和提示指定的视频分割。前者侧重于从预定义的类别集合中分割和跟踪实体。

典型的任务包括视频实例分割(VIS)、语义分割(VSS)和全景分割(VPS),其中需要指定对象类别信息。另一组任务侧重于在整个视频中识别和分割特定目标,需要提供目标的视觉提示或文本描述。提示导向的 VS 任务包括视频对象分割(VOS)、全景视频对象分割(PVOS)和引用式视频对象分割(RefVOS)。每种 VS 任务都有自己的数据集注释和模型评估协议。

39cbdfc8f265929f7d88ce79bd5db453.png

▲ 图1. 比较现有的视频分割方法和 UniVS。在现有的类别指定分割任务方法中(a1),需要首先在每帧中检测实体,然后在帧间进行匹配;

  • 19
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值