模态嵌入
在多模态学习中,经常面对不同类型的数据,例如文本、图像、音频和视频等,每种数据类型都有其特有的属性和结构,无法直接进行比较和计算。模态嵌入的目标是将这些不同类型的数据转换为相同维度的向量,使它们可以在同一空间中进行比较和计算,这种通用的向量表示有助于构建更加灵活和强大的人工智能系统,能够跨越不同模态数据之间的界限,从而提高系统的性能和泛化能力。
摘要
最先进的计算机视觉系统使用一组固定的目标类别来进行训练。这种受限制的监督形式限制了他们的通用性和可用性,因为需要额外的标记数据来指定任何其他视觉概念。直接从关于图像的原始文本中学习是一种有前途的替代方法,它利用了更广泛的监督来源。我们证明了,在从互联网上收集的4亿对数据集上,预测图像文本对之间的对应关系是一种高效且可扩展的从头学习SOTA图像表示的方法。在预训练之后,自然语言被用来指代已经被学习到的视觉概念,或者用于描述新的视觉概念,使模型能够以零样本转移的方式应用到下游任务中。
介绍
在网络规模的文本集合中,现代预训练方法所能获得的总体监督超过了高质量人群标记的NLP数据集,但是在计算机视觉等其他领域,在人群标记的数据集上预训练模型仍然是标准做法,直接从网络文本中学习的可扩展与训练方法能否在计算机视觉领域取得类似的突破。
目前,使用自然语言监督进行图像表示学习的研究仍然不多见,这有可能是因为在共同基准上的表现远低于替代方法。一系列的工作表现了从有限数量监督的金标签学习和几乎无限数量的原始文本中学习之间的中间立场,这些弱监督模型与最近直接从自然语言学习图像表示的探索之间的一个重要区别是尺度。