论文:IMAGEBIND: One Embedding Space To Bind Them All
GitHub:https://github.com/facebookresearch/ImageBind
Meta AI 提出了 ImageBind,它通过利用多种类型的图像配对数据来学习单个共享表示空间。该研究不需要所有模态相互同时出现的数据集,相反利用到了图像的绑定属性,只要将每个模态的嵌入与图像嵌入对齐,就会实现所有模态的迅速对齐。
论文以视觉语言模型clip作为基础,以图片/视频为核心中点,将其他domain的embedding都和图片/视频的embedding对齐。最终得到一个集7大模态(视频、图片、音频、文本、深度图、热力图、惯性)的深度学习模型IMAGEBIND。
有别于先前的模型,本文的IMAGEBIND模型也可以zero-shot迁移到多个其他domain。
在训练上,IMAGEBIND不需要严格一一配对的7个domain的数据,只需要将其他domain的数据都向image/video对齐就可以。通过这样的训练方式,即使没有进行过(声音,文本)的专门训练,也可以取得SOAT的(声音,文本)分类能力。
理想情况下,一个有着不同种类数据的联合嵌入空间能让模型在学习视觉特征的同时学习其他的模态。此前,往往需要收集所有可能的配对数据组合,才能让所有模态学习联合嵌入空间。
ImageBind 规避了这个难题,它利用最近的大型视觉语言模型它将最近的大规模视觉语言模型的零样本能力扩展到新的模态,它们与图像的自然配对,如视频 - 音频和图像 - 深度数据,来学习一个联合嵌入空间。针对其他四种模式(音频、深度、热成像和 IMU 读数),研究者使用自然配对的自监督数据。
I表示图片,M表示其他domain的文件,f,g两个函数都表示将原始数据编码为统一的embedding。
损失函数为InfoNCE loss。
T为temperature,用于控制交叉熵的平滑程度。
左后算loss的时候和clip一样,也是对称的交叉熵。