Distilling Audio-Visual Knowledge by Compositional Contrastive Learning

该工作提出了一种新的跨模态知识传输方法,通过结合音频、图像和视频的表示来发现和利用丰富的多模态知识。这种方法学习一种组合嵌入,能弥合跨模态的语义差距,增强任务相关的语义理解。在UCF101、ActivityNet和VG-GSound等多个视频数据集上,建立了一个多模态蒸馏基准,并展示了模型在视频表示学习上的优越性,特别是在视听知识的传输方面,优于现有的知识蒸馏技术。
摘要由CSDN通过智能技术生成

作者:Yanbei Chen, Yongqin Xian, A.Sophia Koepke, Ying Shan, Zeynep Akata

摘要:与从单模态学习相比,获得多模态线索,(例如,视觉和音频)可以更快地完成某些认知任务。在这项工作中,我们建议在跨模态中传输知识,即使这些数据模态在语义上可能不相关。与直接对齐不同模态的表示不同,我们组合音频,图像和视频的跨模态表示,以发现更丰富的多模态知识。我们的主要思想是学习一种组合嵌入表示,这种嵌入可以缩小跨模态语义鸿沟并捕获与任务相关的语义,这有助于通过组合对比学习将跨模态的表示整合在一起。我们在三个视频数据集(UCF101,ActivityNet和VG-GSound)上建立了一个新的,全面的多模态蒸馏基准。此外,我们证明了我们的模型在传输视听知识以改善视频表示学习方面,明显优于各种现有的知识蒸馏方法。

论文:

https://www.zhuanzhi.ai/paper/9d6ad0627e81f7d73ee6d6b837da4619

代码:

https://github.com/yanbeic/CCL

深度学习pytorch入门资料见专栏置顶~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小P学长

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值