ECCV 2024 | 让AI更懂物理世界！人大、北邮等联合提出多模态分割新方法

最新推荐文章于 2024-11-09 21:51:15 发布

PaperWeekly

最新推荐文章于 2024-11-09 21:51:15 发布

阅读量246

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247680249&idx=3&sn=cca41a9448065553c1529652f759986d&chksm=973acaa90b0c1c1b0a4b4bf09daad5e9ca6538bfb7a2d030d0a413355a5001be00635d7ed7e2&scene=126&sessionid=0

版权

©作者 | 王耀霆

单位 | 中国人民大学

来源 | 量子位

让 AI 像人类一样借助多模态线索定位感兴趣的物体，有新招了！来自人大高瓴 GeWu-Lab、北邮、上海 AI Lab 等机构的研究人员提出 Ref-AVS（Refer and Segment Objects in Audio-Visual Scenes，视听场景下的指代分割），让 AI 能看、会听，更懂真实物理世界。相关论文已入选顶会 ECCV 2024。

论文标题：

Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes

论文链接：

https://arxiv.org/abs/2407.10957

代码链接：

https://gewu-lab.github.io/Ref-AVS/

举个例子，在下面这张图中，机器如何准确定位真正在演奏乐器的人？

搞单打独斗肯定不行，但这正是已有研究正在做的（各自从视觉、文本和音频线索的角度出发）：

视频对象分割（VOS，Video Object Segmentation）：通常以第一帧中的对象掩码作为参考，指导后续帧中特定对象的分割（严重依赖于第一帧的精确标注）；
视频对象参考分割（Ref-VOS，Referring Video Object Segmentation）：基于自然语言描述分割视频中的物体，取代了 VOS 中的掩码标注（虽然更易于访问，但能力有限）；
视听分割（AVS，Audio-Visual Segmentation）：以音频为指导来分割视频中发声的物体（无法应对不发声的物体）；

而新方法 Ref-AVS，整合了多个模态（文本，音频和视觉）之间的关系来适应更真实的动态视听场景。这下，同时在唱歌和弹吉他的人也能被轻松找到了。

且同一段素材还能拿来反复用，找出正在发声的吉他也不在话下。

与此同时，研究人员构建了一个名为 Ref-AVS Bench 的数据集，并设计了一个端到端框架来高效处理多模态线索。具体详见下文。

构建了数据集Ref-AVS Bench

概括而言，数据集 Ref-AVS Bench 共有 40020 个视频帧，包含 6888 个物体和 20261 个指代表达式（Reference Expression）。每个数据都包含与视频帧对应的音频，并提供逐帧的像素级标注。为了确保所指代对象（Object）的多样性，团队选择了包含背景的 52 个类别, 其中 48 个类别的可发声物体，以及 3 个类别的静态、不可发声物体。

在视频收集过程中，所有视频均来自油管并截取 10 秒。在整个手动收集过程中，团队刻意避免以下情况的视频：a) 包含大量相同语义实例的视频；b) 有大量编辑和相机视角切换的视频；c) 包含合成创作的非现实视频。同时，为了提高与真实世界分布的一致性，团队挑选了有助于数据集内场景多样化的视频。比如涉及多个对象（如乐器、人、车辆等）之间交互的视频。

另外，表达式（Expression）的多样性是 Ref-AVS 数据集构建的核心要素之一。除去本身固有的文本语义信息，表达式还由听觉、视觉和时间三个维度的信息组成。听觉维度包含音量、节奏等特征，而视觉维度则包含物体的外观和空间等属性。

团队还利用时间线索来生成具有时序提示的引用，例如“先发出声音的(物体)”或“后出现的(物体)”。通过整合听觉、视觉和时间信息，研究设计出丰富的表达式，不仅可以准确反映多模态场景，还可以满足用户对精确引用的特定需求。

而且，表达式的准确性也是一个核心关注点。研究遵循三个规则来生成高质量的表达式：

1）唯一性：一个表达式所指代的对象必须是唯一的，不能同时指代多个对象。

2）必要性：可以使用复杂的表达式来指代对象，但句子中的每个形容词都应该缩小目标对象的范围，避免对所要指代的对象进行不必要和冗余的描述。

3）清晰度：某些表达模板涉及主观因素，例如“声音更大的__”。只有在情况足够清晰时才应使用此类表达，以避免产生歧义。

团队将每段 10 秒的视频分成十个相等的 1 秒片段，利用 Grounding SAM 来分割和标记关键帧，随后要求标注员手动检查和更正这些关键帧。此过程使团队能够在关键帧内为多个目标对象生成掩码和标签。一旦确定了关键帧的掩码，研究就会应用跟踪算法来跟踪目标对象，并在 10s 的跨度内获得目标对象的最终掩码标签 (Ground Truth Mask)。

到了数据分割与统计，测试集中的视频及其对应的注释会经过训练过的标注人员的细致审查和校正。为了全面评估模型在 Ref-AVS 任务中的表现，测试集进一步被划分为三个不同的子集。

具体而言，三个测试子集包括：

已见子集 (Seen)：包括那些在训练集中出现过的物体类别，建立该子集的目的是评估模型的基本性能。
未见子集 (Unseen)：专门用于评估模型在未见音视频场景中的泛化能力。
空指代子集 (Null)：测试模型对空引用的鲁棒性，即表达式与视频中的任何对象都不相关。

具体咋实现的？

完成了数据集准备后，团队利用多模态线索来增强表达式指代能力（Expression Enhancing with Multimodal Cues, EEMC），以实现更好的视听指代分割。

具体而言，在时序双模态融合（Temporal Bi-Modal Transformer）模块中，团队将包含时序信息的视听模态信息（FV, FA）分别与文本信息 FT 进行融合。

注意, 为了让模型更好的感知时序信息，研究提出了一种直观的 Cached memory 机制（CV,CA ）。

Cached memory 需要存储从开始到当前时刻的时序平均模态特征，以捕捉时序变化中多模态信息的变化幅度。多模态特征（QV, QA）计算方式如下：

其中，𝓣 表示时序中的特定时间步，𝜷 则是一个可调节的超参数用于控制时序过程中模型对特征时序变化的敏感度。当此刻的音频或视觉特征与过去特征的均值相比变化不大时，输出的特征保持几乎不变。

然而，当变化较为明显时，cached memory 可以放大当前特征的差异，从而产生具有显著特征的输出。此后，拼接的多模态特征被送入 Multimodal Integration Transformer 模块中进行多模态融合，产生包含多模态信息的指代表达式的最终特征（QM）作为掩码解码器的输入。

掩码解码器是一个 Transformer 架构的分割基础模型如 MaskFormer，Mask2Former 或者 SAM。团队选择 Mask2Former 作为分割基础模型，将其预训练的 mask queries 作为 𝙦，将多模态指代表达式特征作为 𝒌 和 𝒗 。经过一个 cross-attention transformer（CATF）将多模态指代表达式特征迁移到 mask queries 中，从而实现让分割基础模型根据多模态特征进行分割。

实验结果

在定量实验中，团队将研究提出的基线方法与其它方法进行对比，且为了公平补充了其他方法缺失的模态信息。在 Seen 子集上的测试结果显示，新方法 Ref-AVS 超越了其它方法的性能。同时在 Unseen 子集和 Null 子集上，Ref-AVS 展示了可泛化性，并且可以准确地跟随指代表达。

在定性实验中，团队在 Ref-AVS Bench 测试集上对分割掩码进行可视化，并与 AVSegFormer 和 ReferFormer 进行比较。

结果显示，ReferFormer 在 Ref-VOS 任务中的表现以及 AVSegFormer 在 AVS 任务中的表现都未能准确分割出表达中描述的对象。

具体来说，AVSegFormer 在理解表达时遇到困难，往往直接生成声音源。例如，在左下角的样本中，AVSegFormer 错误地将吸尘器分割为目标，而不是男孩。另一方面，Ref-VOS 可能无法充分理解音频-视觉场景，因此误将幼童识别为钢琴演奏者，如右上角的样本所示。相比之下，Ref-AVS 方法展现了更出色的能力，能够同时处理多模态表达和场景，从而准确地理解用户指令并分割出目标对象。

未来，可以考虑更优质的多模态融合技术、模型应用的实时性以及数据集的扩展与多样化，以将多模态指代分割应用到视频分析、医疗图像处理、自动驾驶和机器人导航等挑战中。更多详情欢迎查阅原论文。

更多阅读