ECCV 2024 | 全新SOTA,人大、北邮等联合提出多模态分割新方法

 
 

点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

©作者 | 王耀霆

单位 | 中国人民大学

来源 | 量子位 PaperWeekly

让 AI 像人类一样借助多模态线索定位感兴趣的物体,有新招了!来自人大高瓴 GeWu-Lab、北邮、上海 AI Lab 等机构的研究人员提出 Ref-AVS(Refer and Segment Objects in Audio-Visual Scenes,视听场景下的指代分割),让 AI 能看、会听,更懂真实物理世界。相关论文已入选顶会 ECCV 2024。

cfe6122fcd3564a9931d8229ad28fb33.png

论文标题:

Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes

论文链接:

https://arxiv.org/abs/2407.10957

代码链接:

https://gewu-lab.github.io/Ref-AVS/

举个例子,在下面这张图中,机器如何准确定位真正在演奏乐器的人?

760965bda7a57328a6fab1aefff88a87.png

搞单打独斗肯定不行,但这正是已有研究正在做的(各自从视觉、文本和音频线索的角度出发):

  • 视频对象分割(VOS,Video Object Segmentation):通常以第一帧中的对象掩码作为参考,指导后续帧中特定对象的分割(严重依赖于第一帧的精确标注);

  • 视频对象参考分割(Ref-VOS,Referring Video Object Segmentation):基于自然语言描述分割视频中的物体,取代了 VOS 中的掩码标注(虽然更易于访问,但能力有限);

  • 视听分割(AVS,Audio-Visual Segmentation):以音频为指导来分割视频中发声的物体(无法应对不发声的物体);

而新方法 Ref-AVS,整合了多个模态(文本,音频和视觉)之间的关系来适应更真实的动态视听场景。这下,同时在唱歌和弹吉他的人也能被轻松找到了。

且同一段素材还能拿来反复用,找出正在发声的吉他也不在话下。

与此同时,研究人员构建了一个名为 Ref-AVS Bench 的数据集,并设计了一个端到端框架来高效处理多模态线索。具体详见下文。

111b66000aff890f71c4b2aa92f05f4d.png

构建了数据集Ref-AVS Bench

概括而言,数据集 Ref-AVS Bench 共有 40020 个视频帧,包含 6888 个物体和 20261 个指代表达式(Reference Expression)。每个数据都包含与视频帧对应的音频,并提供逐帧的像素级标注。为了确保所指代对象(Object)的多样性,团队选择了包含背景的 52 个类别, 其中 48 个类别的可发声物体,以及 3 个类别的静态、不可发声物体。

在视频收集过程中,所有视频均来自油管并截取 10 秒。在整个手动收集过程中,团队刻意避免以下情况的视频:a) 包含大量相同语义实例的视频;b) 有大量编辑和相机视角切换的视频;c) 包含合成创作的非现实视频。同时,为了提高与真实世界分布的一致性,团队挑选了有助于数据集内场景多样化的视频。 比如涉及多个对象(如乐器、人、车辆等)之间交互的视频。

0101d2898466cd639550fd8200ee7ac0.png

另外,表达式(Expression)的多样性是 Ref-AVS 数据集构建的核心要素之一。除去本身固有的文本语义信息,表达式还由听觉、视觉和时间三个维度的信息组成。听觉维度包含音量、节奏等特征,而视觉维度则包含物体的外观和空间等属性。

团队还利用时间线索来生成具有时序提示的引用,例如“先发出声音的(物体)”或“后出现的(物体)”。通过整合听觉、视觉和时间信息,研究设计出丰富的表达式,不仅可以准确反映多模态场景,还可以满足用户对精确引用的特定需求。

795e6be447a7316a6c55ff977b2727bc.png

而且,表达式的准确性也是一个核心关注点。研究遵循三个规则来生成高质量的表达式: 

1)唯一性:一个表达式所指代的对象必须是唯一的,不能同时指代多个对象。 

2)必要性:可以使用复杂的表达式来指代对象,但句子中的每个形容词都应该缩小目标对象的范围,避免对所要指代的对象进行不必要和冗余的描述。 

3)清晰度:某些表达模板涉及主观因素,例如“声音更大的__”。只有在情况足够清晰时才应使用此类表达,以避免产生歧义。 

团队将每段 10 秒的视频分成十个相等的 1 秒片段,利用 Grounding SAM 来分割和标记关键帧,随后要求标注员手动检查和更正这些关键帧。此过程使团队能够在关键帧内为多个目标对象生成掩码和标签。一旦确定了关键帧的掩码,研究就会应用跟踪算法来跟踪目标对象,并在 10s 的跨度内获得目标对象的最终掩码标签 (Ground Truth Mask)。 

到了数据分割与统计,测试集中的视频及其对应的注释会经过训练过的标注人员的细致审查和校正。为了全面评估模型在 Ref-AVS 任务中的表现,测试集进一步被划分为三个不同的子集。

b3ea4fab7f0ebcb31cb5558c00a6aed1.png

具体而言,三个测试子集包括: 

  • 已见子集 (Seen):包括那些在训练集中出现过的物体类别,建立该子集的目的是评估模型的基本性能。 

  • 未见子集 (Unseen):专门用于评估模型在未见音视频场景中的泛化能力。 

  • 空指代子集 (Null):测试模型对空引用的鲁棒性,即表达式与视频中的任何对象都不相关。

ddbf3d39ec8672c0ef1aa49347f6769b.png

具体咋实现的?

完成了数据集准备后,团队利用多模态线索来增强表达式指代能力(Expression Enhancing with Multimodal Cues, EEMC),以实现更好的视听指代分割。

0ba3dfb265e0d8bf54bb122b7131bc6c.png

具体而言,在时序双模态融合(Temporal Bi-Modal Transformer)模块中,团队将包含时序信息的视听模态信息(FV, FA)分别与文本信息 FT 进行融合。

注意, 为了让模型更好的感知时序信息,研究提出了一种直观的 Cached memory 机制(CV,CA )。

Cached memory 需要存储从开始到当前时刻的时序平均模态特征,以捕捉时序变化中多模态信息的变化幅度。多模态特征(QV, QA)计算方式如下:

e6a27d25fbdcbf588dad83e990120d88.png

其中,𝓣 表示时序中的特定时间步,𝜷 则是一个可调节的超参数用于控制时序过程中模型对特征时序变化的敏感度。当此刻的音频或视觉特征与过去特征的均值相比变化不大时,输出的特征保持几乎不变。 

然而,当变化较为明显时,cached memory 可以放大当前特征的差异,从而产生具有显著特征的输出。此后,拼接的多模态特征被送入 Multimodal Integration Transformer 模块中进行多模态融合,产生包含多模态信息的指代表达式的最终特征(QM)作为掩码解码器的输入。 

掩码解码器是一个 Transformer 架构的分割基础模型如 MaskFormer,Mask2Former 或者 SAM。团队选择 Mask2Former 作为分割基础模型,将其预训练的 mask queries 作为 𝙦,将多模态指代表达式特征作为 𝒌 和 𝒗 。经过一个 cross-attention transformer(CATF)将多模态指代表达式特征迁移到 mask queries 中,从而实现让分割基础模型根据多模态特征进行分割。

9ad20071c2d0b100e21b9e2834b5c4fa.png

实验结果

在定量实验中,团队将研究提出的基线方法与其它方法进行对比,且为了公平补充了其他方法缺失的模态信息。在 Seen 子集上的测试结果显示,新方法 Ref-AVS 超越了其它方法的性能。同时在 Unseen 子集和 Null 子集上,Ref-AVS 展示了可泛化性,并且可以准确地跟随指代表达。

202397feb4233a20c761fe6ab0530e33.png

在定性实验中, 团队在 Ref-AVS Bench 测试集上对分割掩码进行可视化,并与 AVSegFormer 和 ReferFormer 进行比较。

a918eaa770933d53706bcb367185a433.png

结果显示,ReferFormer 在 Ref-VOS 任务中的表现以及 AVSegFormer 在 AVS 任务中的表现都未能准确分割出表达中描述的对象。

具体来说,AVSegFormer 在理解表达时遇到困难,往往直接生成声音源。例如,在左下角的样本中,AVSegFormer 错误地将吸尘器分割为目标,而不是男孩。另一方面,Ref-VOS 可能无法充分理解音频-视觉场景,因此误将幼童识别为钢琴演奏者,如右上角的样本所示。相比之下,Ref-AVS 方法展现了更出色的能力,能够同时处理多模态表达和场景,从而准确地理解用户指令并分割出目标对象。

未来,可以考虑更优质的多模态融合技术、模型应用的实时性以及数据集的扩展与多样化,以将多模态指代分割应用到视频分析、医疗图像处理、自动驾驶和机器人导航等挑战中。更多详情欢迎查阅原论文。

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。


下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。


下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。


交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值