NeurIPS 2023 | 跨模态提示:微调大型预训练模型适应音视频下游任务

研究表明,大规模预训练模型在音视频下游任务上仍有提升空间,因无关模态信息影响性能。《Cross-modal Prompts》论文提出了一种双引导的空间-通道-时间(DG-SCT)注意机制,通过音频和视觉模态作为软提示,动态调整模型参数,提高多模态任务的性能。实验证明,该模型在多个音视频任务中取得 state-of-the-art 成绩,并在 few-shot 和 zero-shot 场景表现出色。
摘要由CSDN通过智能技术生成

830e6a444bd7eaa911aac2d659853baf.gif

©PaperWeekly 原创 · 作者 | 段皞一

单位 | 浙江大学

研究方向 | 多模态

近年来,在音视频下游任务中部署大规模预训练模型已经取得了显著的成果。然而,这些模型主要是在单模态非受限数据集上进行训练的,仍然在多模态任务的特征提取方面面临挑战。这个局限性是因为在编码过程中引入了无关的模态特定信息,对下游任务的性能产生了不利影响。我们发表于 NeurIPS 2023 的文章,《Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks》解决了这一挑战。

本文提出了一种新颖的双引导空间-通道-时间(DG-SCT)注意机制。该机制将音频和视觉模态作为软提示,基于当前多模态输入特征动态调整预训练模型的参数。具体来说,DG-SCT 模块将可训练的跨模态交互层整合到预训练的音频、视频编码器中,允许跨空间、通道和时间维度自适应地提取当前模态的关键信息,同时保留大规模预训练模型的冻结参数

cb8f7751a33785603ad0e5e2e5b0acb1.png

论文标题:
Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks
代码链接:
https://github.com/haoyi-duan/DG-SCT

实验表明,我们提出的模型在多个下游任务中取得了 state-of-the-art,包括 AVE、AVVP、AVS 和 AVQA 任务。此外,我们的模型在具有挑战性的 few-shot 和 zero-shot 场景中表现优越。此外,我们还进行了全面的实验:

  • 消融实验,验证了空间(S),通道(C)和时间(T)三个模块的有效性;

  • 定性分析,可视化地分析模型对表征效果的提升;

  • 性能分析,可训练参数和计算成本的比较。

总体来说,在 4 个数据集总共 25 个 setting 下,我们有 19 个取得了 SOTA。我们的方法表现出了强大的泛化能力,并在未来的更多音视频场景中具有应用潜力

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值