NeurIPS 2023 | 跨模态提示：微调大型预训练模型适应音视频下游任务

PaperWeekly

于 2023-10-21 12:26:09 发布

阅读量401

点赞数 2

文章标签：音视频

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/133968337

版权

研究表明，大规模预训练模型在音视频下游任务上仍有提升空间，因无关模态信息影响性能。《Cross-modal Prompts》论文提出了一种双引导的空间-通道-时间（DG-SCT）注意机制，通过音频和视觉模态作为软提示，动态调整模型参数，提高多模态任务的性能。实验证明，该模型在多个音视频任务中取得 state-of-the-art 成绩，并在 few-shot 和 zero-shot 场景表现出色。

摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者 | 段皞一

单位 | 浙江大学

研究方向 | 多模态

近年来，在音视频下游任务中部署大规模预训练模型已经取得了显著的成果。然而，这些模型主要是在单模态非受限数据集上进行训练的，仍然在多模态任务的特征提取方面面临挑战。这个局限性是因为在编码过程中引入了无关的模态特定信息，对下游任务的性能产生了不利影响。我们发表于 NeurIPS 2023 的文章，《Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks》解决了这一挑战。

本文提出了一种新颖的双引导空间-通道-时间（DG-SCT）注意机制。该机制将音频和视觉模态作为软提示，基于当前多模态输入特征动态调整预训练模型的参数。具体来说，DG-SCT 模块将可训练的跨模态交互层整合到预训练的音频、视频编码器中，允许跨空间、通道和时间维度自适应地提取当前模态的关键信息，同时保留大规模预训练模型的冻结参数。

论文标题：

Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks

代码链接：

https://github.com/haoyi-duan/DG-SCT

实验表明，我们提出的模型在多个下游任务中取得了 state-of-the-art，包括 AVE、AVVP、AVS 和 AVQA 任务。此外，我们的模型在具有挑战性的 few-shot 和 zero-shot 场景中表现优越。此外，我们还进行了全面的实验：

消融实验，验证了空间（S），通道（C）和时间（T）三个模块的有效性；
定性分析，可视化地分析模型对表征效果的提升；
性能分析，可训练参数和计算成本的比较。

总体来说，在 4 个数据集总共 25 个 setting 下，我们有 19 个取得了 SOTA。我们的方法表现出了强大的泛化能力，并在未来的更多音视频场景中具有应用潜力。

最低0.47元/天解锁文章

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NeurIPS 2023 | 跨模态提示：微调大型预训练模型适应音视频下游任务

©PaperWeekly 原创 ·作者 |段皞一单位 |浙江大学研究方向 |多模态近年来，在音视频下游任务中部署大规模预训练模型已经取得了显著的成果。然而，这些模型主要是在单模态非受限数据集上进行训练的，仍然在多模态任务的特征提取方面面临挑战。这个局限性是因为在编码过程中引入了无关的模态特定信息，对下游任务的性能产生了不利影响。我们发表于 NeurIPS 2023 的文章，《Cross-m...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。