【论文笔记】Self-Supervised MultiModal Versatile Networks-CSDN博客

【论文笔记】Self-Supervised MultiModal Versatile Networks

论文详细信息

题目：Self-Supervised MultiModal Versatile Networks

作者：Jean-Baptiste Alayrac, Adrià Recasens, Rosalia Schneider, Relja Arandjelovic, Jason Ramapuram, Jeffrey De Fauw, Lucas Smaira, Sander Dieleman, & Andrew Zisserman.

期刊/会议：NIPS’20: Proceedings of the 34th International Conference on Neural Information Processing Systems

时间：2020

领域： Multimedia

关键词： Multimodal interaction

What？

切入点是什么？

我们对世界的体验是多模态的。早在婴儿床上，我们就通过多个感官系统进行感知，例如，我们观看火焰在火场上跳舞，我们听到木头劈啪作响的声音，以及感觉热量的释放。通过这种多模态同步感知，我们学会了在模态之间建立有用的联系，从而使我们能够形成对世界的良好表征。后来，出现了一种语言，允许我们使用更高层次的抽象概念来交流这种细粒度的多模态体验。我们的目标是以自我监督的方式从这种多模态体验中学习表征，而无需诉诸任何特定的手动注释。

思路是什么？

作者选择了一种将每个模态嵌入向量空间的设计，这样模态之间的相似性通过简单的点积获得。每个模态都由一个适合信号性质的主干网络进行处理，并构造模态嵌入图，使得视觉和音频嵌入是细粒度的，而文本嵌入是语义粗粒度的。这种策略是基于这样一种观察：视觉和音频空间是细粒度的（有许多视觉或吉他声音可能彼此确实不同），而文本域则更粗糙，因为它的目标是抽象掉细节（例如，一个“吉他”单词）。然后，通过对大量未标记视频的自我监督对比学习，从零开始训练网络。

解决方案的关键是什么？

学习了两个嵌入空间，在细粒度空间中比较视觉和音频，而在低维粗粒度空间中比较文本、音频和视觉。关键的是Sva中的向量可以通过简单的从细到粗的投影Gva嵌入到Svat

How？

论文的具体贡献

（a）研究了MMV的不同模态嵌入图，并提出了一种简单而有效的音频、视频和语言流多模态表示的自监督训练策略；

（b）引入了一种压缩方法，使得MMV视频网络能够有效地接收静态图像；

（c）展示了学习到的表征在多个图像、视频、音频和视频文本下游任务中的优越性。

具体模型和算法

(i) it should be able to take as input any of the three modalities;

(ii) it should respect the specificity of modalities, in particular the fact that the audio and visual modalities are much more fine-grained than language;

(iii) it should enable the different modalities to be easily compared even when they are never seen together during training;

(iv) it should be efficiently applicable to visual data coming in the form of dynamic videos or static images.