AI学会“视听”新语言,人大北邮上海AI Lab引领多模态理解革命 | ECCV2024亮点


你是否想过,AI是如何“理解”我们这个多彩世界的呢?

最近,一项由中国人民大学高瓴GeWu-Lab、北京邮电大学、上海AI Lab等机构联合研究的成果,为AI的“感官”升级提供了一种新思路。

7446c96260e36f2048511c4b7bcd745a.jpeg

这项研究被收录于即将召开的计算机视觉顶级会议ECCV2024。


AI的“视听盛宴”

想象一下,你正在观看一场音乐会,舞台上既有歌手深情演绎,又有乐手娴熟演奏,而AI需要从这复杂的视听场景中准确识别出正在演奏乐器的人。

这听起来像是一项艰巨的任务,然而,新提出的方法Ref-AVS(Refer and Segment Objects in Audio-Visual Scenes)正是为此而生。

feb4e224ab8e96f05f80a9c58c75ac7f.jpeg

传统的视频对象分割(VOS)、视频对象参考分割(Ref-VOS)和视听分割(AVS)方法,虽然各有千秋,但都存在一定的局限性。

VOS依赖于第一帧的精确标注,Ref-VOS虽然更易访问但能力有限,而AVS仅能处理发声的物体。而Ref-AVS则通过整合文本、音频和视觉信息,让AI能够像人类一样,借助多模态线索定位感兴趣的物体,无论是正在唱歌还是弹吉他的人都能被轻松识别。


构建多模态理解的基石

为了验证和优化Ref-AVS的性能,研究团队构建了一个名为Ref-AVS Bench的数据集,其中包含了丰富的视频帧、物体类别和指代表达式,以及对应的音频和像素级标注。

45b5214af3e0711b257f34b228f3309d.jpeg

通过精心设计的数据收集和表达式生成过程,Ref-AVS Bench不仅确保了数据的多样性和真实性,还为模型的训练提供了坚实的基础。


实现多模态线索的融合

在技术实现上,Ref-AVS利用时序双模态融合和多模态整合Transformer模块,将文本、音频和视觉信息进行深度融合,以增强表达式指代能力。

3ccbcd211e941c221d87f38039e94d22.jpeg

这一过程中,Cached memory机制的引入,让模型能够更敏锐地感知时序变化中的多模态信息,从而在掩码解码器中生成更精确的分割结果。

71ae704d4268abc354cca74f9839273a.jpeg


实验结果

结果表明,Ref-AVS在处理多模态表达和场景理解方面展现了卓越的能力,不仅在定量评估中超越了其他方法,还在定性实验中展现了准确分割目标对象的强大实力。

8a629bdaa3b7ea9dfe6591384ebefea6.jpeg

未来,随着多模态融合技术的不断优化、模型应用的实时性提升以及数据集的扩展,多模态指代分割技术有望在视频分析、医疗图像处理、自动驾驶和机器人导航等领域发挥更大的作用,让AI更加贴近人类的感知方式,更深入地理解这个丰富多彩的世界。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值