作者:Yanbei Chen, Yongqin Xian, A.Sophia Koepke, Ying Shan, Zeynep Akata
摘要:与从单模态学习相比,获得多模态线索,(例如,视觉和音频)可以更快地完成某些认知任务。在这项工作中,我们建议在跨模态中传输知识,即使这些数据模态在语义上可能不相关。与直接对齐不同模态的表示不同,我们组合音频,图像和视频的跨模态表示,以发现更丰富的多模态知识。我们的主要思想是学习一种组合嵌入表示,这种嵌入可以缩小跨模态语义鸿沟并捕获与任务相关的语义,这有助于通过组合对比学习将跨模态的表示整合在一起。我们在三个视频数据集(UCF101,ActivityNet和VG-GSound)上建立了一个新的,全面的多模态蒸馏基准。此外,我们证明了我们的模型在传输视听知识以改善视频表示学习方面,明显优于各种现有的知识蒸馏方法。
论文:
https://www.zhuanzhi.ai/paper/9d6ad0627e81f7d73ee6d6b837da4619
代码:
https://github.com/yanbeic/CCL
深度学习pytorch入门资料见专栏置顶~