1、整体介绍
(1)本文关注的主要三种模态:natural language, visual signals, vocal signals.
(2)多模态机器学习的五个挑战: representation, translation, alignment, fusion, and co-learning.
表1 多模态机器学习的应用概述
2、简单的历史回顾
(1)早期的多模态研究是视听语音识别audio-visual speech recognition (AVSR)
(2)第二个重要的多模态应用分类是多媒体内容索引和检索。
(3)第三类应用是在21世纪初围绕新兴的多模态交互领域建立的,其目标是理解人类在社会交互过程中的多模态行为。
(4)最近,出现了一种强调语言和视觉的多模态应用新类别:媒体描述。最具代表性的应用程序之一是图像标题,其中的任务是生成输入图像的文本描述。
3、多模态表示
两类多模态表示:joint,coordinated.
联合表示将多模态数据投射到一个公共空间中,最适合在推理过程中出现所有模态的情况。它们已广泛用于AVSR,情感和多模态姿势识别。协调表示将每个模态投射进入一个独立但协调的空间,使它们适合于测试时只有一种模式的应用程序
3.1 Joint representation
(1) neural networks基于神经网络的联合表示的主要优势在于其通常具有优越的性能,并且能够在无监督的情况下对表示进行预训练。
(2) Probabilistic graphical models 基于图模型最受欢迎的方法是深层玻尔兹曼机deep Boltzmann machines (DBM) ,使用多模态DBMs学习多模态表示的最大优点之一是其生成特性,这允许以一种简单的方式处理丢失的数据——即使整个模态丢失,模型也有一种自然的处理方法。
(3) Sequential Representation递归神经网络Recurrent neural networks (RNNs)的变体 long-short term memory (LSTMs) networks.
3.2 Coordinate representation
(1) Similarity models相似模型最小化了协调空间中模态之间的距离
(2) structured coordinated space models
3.3 概述
表2 多模态表示技术的概述
4、转化
4.1 example-based
基于检索的模型直接使用检索到的转换,而不需要修改它,而基于组合的模型依赖于更复杂的规则来基于大量检索到的实例创建转换。基于检索的模型可以说是多模态翻译的最简单形式。它们依赖于在字典中找到最接近的样本,并将其用作翻译结果。检索可以在单模态空间或中间语义空间进行。
4.2 generative
生成模型的三大类:
(1)Grammar-based models基于语法的方法的一个优点是,当它们使用预定义模板和受限制的语法时,它们更有可能生成语法上(对于语言)或逻辑上正确的目标实例。然而,这限制了他们创作公式化的翻译,而不是创造性的翻译。此外,基于语法的方法依赖于复杂的管道进行概念检测,每个概念都需要单独的模型和单独的训练数据集。
(2)Encoder-decoder models虽然基于神经网络的编码器-解码器系统已经取得了很大的成功,但仍然面临许多问题。Devlin等人认为,网络可能是在记忆训练数据,而不是学习如何理解和生成视觉场景。这是基于k近邻模型与基于生成的模型的性能非常相似的观察。此外,这种模型通常需要大量的数据进行培训。
(3)Continuous generation models
表3多模态翻译研究的分类
5、对齐
将多模态对齐分为隐式对齐和显式对齐两种类型。
5.1显示对应确定了两种处理显性问题的算法——无监督算法和(弱)监督算法
5.2 隐式对应确定了两种类型的隐式对齐模型:早期基于图形模型的工作和更现代的神经网络方法。
表5 多模式对齐挑战的分类摘要
6、融合
将多模态融合分为两大类:不直接依赖于特定机器学习方法的模型不可知方法;以及基于模型的方法,这些方法在构建中显式地处理融合——例如基于内核的方法、图形模型和神经网络。
表6多模态融合方法的分类总结
7、协同学习
基于训练资源确定三种类型的协同学习方法:并行、非并行和混合。多模态协同学习允许一种模态影响另一种模态的训练,利用跨模态的互补信息。需要注意的是,协同学习是独立于任务的,可以用于创建更好的融合、转换和对齐模型。以协同训练、多模态表示学习、概念基础和零样本学习(ZSL)等算法为例,在视觉分类、动作识别、视听语音识别和语义相似度估计等领域都有广泛的应用。