Multimodal Machine Learning: A Survey and Taxonomy多模态综述论文笔记

最新推荐文章于 2025-02-26 22:02:51 发布

李霁明

最新推荐文章于 2025-02-26 22:02:51 发布

阅读量2.4k

点赞数 5

分类专栏：多模态 AI 论文研读文章标签：多模态综述论文笔记

本文链接：https://blog.csdn.net/qq_34767784/article/details/119545204

版权

AI 同时被 3 个专栏收录

13 篇文章

订阅专栏

多模态

3 篇文章

订阅专栏

论文研读

3 篇文章

订阅专栏

文章目录

第一遍：快速预览，把握概要
第二遍：抓住重点，暂略细节

Multimodal Machine Learning: A Survey and Taxonomy

第一遍：快速预览，把握概要

具体操作如下：

1、仔细阅读标题、摘要和简介。

标题：Multimodal Machine Learning: A Survey and Taxonomy Abstract——介绍了模态和多模态的概念以及与AI的联系；介绍多模态机器学习概念、重要性以及本文所给的五大挑战分类。
Index Terms—Multimodal, machine learning, introductory, survey.

1 INTRODUCTION

模态和多模态定义，本文聚焦于三种模态：自然语言、视觉信号、声音信号。
通过解释和推理多模态信息，AI可以更好地认识和改造世界。多模态机器学习在正在蓬勃发展。
异质性的数据给MMML带来许多挑战，主要有5种：Representation、Translation、Alignment、Fusion、Co-learning

2、先忽略内容，读一读文章中的每个小标题。

1 INTRODUCTION
2 APPLICATIONS: A HISTORICAL PERSPECTIVE 3 MULTIMODAL REPRESENTATIONS
3.1 Joint Representations 3.2 Coordinated Representations
3.3 Discussion
4 TRANSLATION
4.1 Example-based 4.2 Generative approaches
4.3 Model evaluation and discussion
5 ALIGNMENT
5.1 Explicit alignment 5.2 Implicit alignment
5.3 Discussion
6 FUSION
6.1 Model-agnostic approaches 6.2 Model-based approaches 6.3 Discussion
7 CO-LEARNING
7.1 Parallel data
7.2 Non-parallel data 7.3 Hybrid data
7.4 Discussion
8 CONCLUSION

3、如果有数学内容，先大致浏览，确定其理论基础。

综述文献，无明显数学内容

4、读结论。

8 CONCLUSION：本文最大贡献，将MMML分为5类

5、浏览参考文献，如果有你已经读过的，把它们勾选出来。

无

如此读完第一遍，你需要问问自己以下几个问题：

1、分类：这是什么类型的论文？
这是一篇综述
2、背景：与哪些其他论文相关？基于何种理论基础来分析问题？
与多模态、综述论文相关；基于多模态机器学习分为5类，为后续研究指明方向
3、正确性：论文的假设看起来正确吗？
论文没有明显假设
4、贡献：论文的主要贡献是什么？
将MMML分为5类，为后续研究指明方向
5、清晰度：这篇论文写得好吗？
这篇论文从第一遍阅读来看整体结构很清晰

第二遍：抓住重点，暂略细节

这一遍阅读中，有两个小技巧：
1、仔细查看论文中的图表。关注一下细节：坐标轴是否正确标记？结论是否具有统计意义？往往细节之中，就能窥见真正出色的工作和水文之间的区别。
2、标记论文中涉及的、你并未读过的参考文献，之后进一步阅读。

1 INTRODUCTION

2 APPLICATIONS: A HISTORICAL PERSPECTIVE

audio-visual speech recognition (AVSR) [243]，初始多基于HMMs的变形，但是发现视频对于音频识别只是在有噪声的情况下一个增强鲁棒性的功能，并不能做到1+1>2的提升效果。
multimedia content indexing and retrieval [11], [188]，比如自动镜头边界检测 [123]和视频摘要 [53]
understanding human multimodal behaviors during social interactions，比如数据集AMI Meeting Corpus[33]；SEMAINE corpus[139]；audio-visual emotion challenge (AVEC)
media description，image captioning图片说明[83]，很难评价性能；visual question-answering (VQA) [9]可以解决部分评价难题
这些MMML的应用面临诸多挑战如下表所示：
在这里插入图片描述

3 MULTIMODAL REPRESENTATIONS

实体的特征表示很重要，是MMML的基础，但是面临诸多困难：如何融合异质特征？如何处理各类噪声？如何处理数据丢失？
单模态好的特征表示属性：光滑、时空连贯性、稀疏性、自然聚类；S和S提出一些额外属性：初始概念和表示空间中相似度的一致性；而且即使缺少某一模态特征表示依然容易获取；而且可以根据观测到模态来补全缺失的模态。
过去单模态研究居多[5], [18], [122]，后来逐渐由人为构造特征发展为从数据提取特征。比如图像领域从SIFT[127]到CNN网络；声学从MFCC到DNN的声音识别与RNN的副语言分析；NLP中的统计语言特征也被词嵌入特征取缔[141]；而之前的多模态特征多是单模态特征的级联[50]。
本文将多模态特征分为：joint and coordinated。其中联合特征将单模态特征联合到一个特征空间中；而协同特征单独处理每个单模态特征，但是需要约束限制以便最后将其映射到协调空间中。

在这里插入图片描述

联合特征公式可以表示如下：
在这里插入图片描述

f是系统的抽象函数，比如DNN、RBM、RNN
协同特征公式可以表示如下：
在这里插入图片描述

每个模态都有一个将其映射到协调空间的函数，协同的例子有：最小化余弦距离；最大化相关性；在结果空间强制执行偏序等。

3.1 Joint Representations

联合特征表示多用于在训练和推理步骤中都存在多模态数据的任务中。联合表示最简单的例子就是单模态特征的级联[50]，本文介绍的更高级点，有NN、图模型和RNN
在这里插入图片描述

假设DNN的层次之间连续，直接使用网络最后一层或者倒数第二层作为数据表示的一种形式。使用NN来进行联合表示，每个模态需要独立的网络+隐藏层将模态投影到联合空间[9], [145], [156], [227]。然后联合多模态表示本身通过多个隐藏层或者直接用于预测。这种模型可以训练成端到端的，既学习如何表示数据也执行特定任务。这就导致了该情况下多模态表示学习和多模态融合之间的密切关系。
NN往往需要大量标注数据，所以很容易想到预训练：比如在无监督数据上使用自编码器[80]。学得的表示是通用的，可以在特定任务上进行微调[217]。
基于神经网络的联合表示：优点是优秀的表现、无监督方式地预训练特征表示；模型性能的提升依赖于训练数据的大小；缺点是无法自然地处理缺失数据，而且深度神经网络很难训练。
概率图模型使用潜在随机变量来进行多模态表示[18]，其中最常用的是深度玻尔兹曼机DBM[176]，它由RBM堆叠而成；DBM的优点在于它不需要标签数据来训练，数据表示的概率性也赋予了其生成性[176]。
[197]使用了DBN、[104]对单模态DBN然后融合用来音频视频的表情识别、[86]使用类似AVSR的模型、[225]使用音频和骨骼关节的手势识别。
多模态DBN扩展到DBNs[198]，多模态 DBM 能够通过在其上使用隐藏单元的二进制层合并两个或多个无向图来学习来自多种模态的联合表示。由于模型的无向性，它们允许每种模态的低级表示在联合训练后相互影响。
[156]探究使用多模态DBMs在多模态数据上预测人体姿态估计；[199]使用多模态DBM方法，根据PET（正电子发射断层扫描）和磁共振成像数据进行阿尔兹海默症的分类。
DBMs的最大优点之一就是它的生成特性，使得它可以很好地处理缺失数据，还可以生成确实模态的数据；类似于自编码器他也可以使用无监督方式训练；DBMs最大的缺点是训练耗费太大，得使用近似变分训练方法[198]。
序列表示：许多模态数据是不定长的序列。RNN及其变种如LSTM[82]在各类任务[12]、[213]取得不错的表现。AVSR[43]中使用RNN构建多模态表示，[37][152]用RNN表示音频-视频数据，[166]用不同视觉线索进行人类行为分析。

3.2 Coordinated Representations

联合多模态表示的替代方案是协同表示。我们不是将多模态一起投影到联合空间中，我们学习每个模态单独的表示，必须通过约束来协调它们。
我们依次讨论协同表示中的限制：从相似度限制到结构化限制。
相似度模型以最小化协同空间中各个模态之间的距离为目标。[61][221][222]WSABIE模型构建了图形和文字特征到对应标签的映射。
NN也多用于构建协同表示，其优势在于它能够端到端的方式联合学习协同表示。[61]DeViSE就是深度视觉-语义编码；[105]使用LSTM和基于对的排序损失将其推广到句子和图形的协同表示。[191]处理同样的任务，但是将语言模型推广到依赖树RNN来合并组合语义。[159]将图片替换为视频；[231]使用<subject, verb,Object>组合语言模型和一个深度视频模型创建了一个视频和句子见的协同空间。这种表示后来被用于交叉模态检索和视频描述的任务。
结构化协同空间对各个模态表示间强制执行了额外限制，限制根据具体应用而定，对于hashing、跨模态检索和看图说话都有不同的限制。
结构化协同空间在跨模态哈希中很常见，将高维空间中的数据压缩成紧凑的二进制码，对于相似的物品其二进制码相似[218]。跨模态的哈希就是为了跨模态的检索创建这样的二进制码而提出来的[27]、[93]、[113]。哈希对多模态空间有以下限制：1）它必须是N维的汉明空间——具有可控位数的二进制表示；2）不同模态的同一个物品必须有类似的哈希码；3）它必须具有相似保持性[27][113]。[92]就构建了句子描述与对应图形的二进制空间。[32]将其推广使用更复杂的LSTM句子表示，引入了不敏感的逐位边界损失（outlier insensitive bit-wise margin loss）和基于相关反馈的语义相似性限制。[219]构建了一个协同空间，其中相似意思的图片和句子彼此距离很近。
结构化协同表示另一个例子就是图形和语言的顺序嵌入（order-embeddings）[212][249]。[212]提出的模型强制执行不对称的不相似度度量，而且在多模态空间中实现偏序的概念。[238]也提出了用外延图诱导偏序构建一个类似的模型。[249]介绍用文本和图像的结构化表示以无监督的方式创建概念分类法。
结构化协调空间的一个特例是基于典型相关分析（CCA）[84]。CCA计算线性投影，最大化两个模式之间的相关性并保证新空间的正交性。CCA已经应用到跨模态检索[76]、[106]、[169]以及音频视频信号分析[177]、[187]。还有工作将CCA扩展到最大化相关性非线性映射[7]，[116]。KCCA[116]使用再现核希尔伯特空间进行投影。但是该方法是非参数的，随着训练数据规模的变化其缩放很差，而且它在处理大规模现实世界数据集时也存在很多问题。DCCA[17]解决了上述的尺度问题。类似的对应自动编码器 [58] 和深度对应 RBMs [57] 也被提出用于跨模态检索。
CCA、KCCA和DCCA都是无监督方法，而且只优化表示的相关性，因而主要捕获模态间共享的信息。深度规范相关自编码器[220]也包括一个基于自动编码器的数据重建项。这就鼓励特征表示也应该捕获模型详细的信息。语义相关最大化方法[248]在保留最大化相似性和构造空间的正交性之外还鼓励语义相关性。这导致了 CCA 和跨模式散列技术的组合。

3.3 Discussion

在本节中，我们确定了两种主要类型的多模态表示——联合和协同。联合表示将多模态数据投影到公共空间中，最适合推理过程中所有模态都存在的情况。它们已广泛用于AVSR、情感和多模态手势识别。另一方面，协同表示将每个模态投影到一个单独但协同的空间中，使其适用于在测试时仅存在一种模态的应用程序，例如：多模态检索和翻译（第 4 节）、真实值（第 7.2 节）和zero shot学习（第 7.2 节）。最后，虽然联合表示已在情况下用于构造表示超过两种模式，协调空间迄今为止主要限于两种模式。

4 TRANSLATION

多模态机器学习的很大一部分与从一种模态转换（映射）到另一种模态有关。早期工作有speech synthesis[88],visual speech generation[136]，video description [107], and cross-modal retrieval[169].
现在又有很多新的研究领域，比如视觉场景描述，也被称作图片标题[214]和视频标题[213]，要解决这个问题，我们不仅需要充分理解视觉场景并识别其突出部分，还需要生成语法正确、全面而又简洁的句子来描述它。
多模态映射范围广而且视具体的模态而有所不同，但是它们有一些统一的特点。我们把它分为两种类型——基于例子的模型和生成式模型。基于例子的模型在模式间进行映射时使用字典形成对应关系；而生成式模型构建一个模型来产生映射。这种区别类似于非参数和参数机器学习方法的区别。
在这里插入图片描述

具有代表性的例子总结在表3中。
在这里插入图片描述

生成式模型起初很难实现因为要生成信号或符号序列，而且要保证它们时间和结构上的一致性。但是随着深度神经网络能够产生图像[171][210]、声音[157][209]，和文字[12]，生成式模型开始流行开来。

4.1 Example-based

基于例子的算法受到它们的训练数据——字典的限制。我们将其分为两类：基于检索的和基于组合的。基于检索的模型直接使用检索到的映射而不修改它，而基于组合的模型依赖于更复杂的规则来创建基于多个检索实例的映射。
基于检索的模型最为简单，其思想就是查找字典中离得最近的例子作为映射结果。检索可以在单模式空间中进行也可以在中间语义空间进行。
给定一个要翻译的源模态实例，单模态检索在源空间中的字典中找到最接近的实例——例如，图像的视觉特征空间。这种方法以及用于视觉语音合成，检索所需音素的最匹配的视觉示例[26]。它也被用于串联文字语音转换系统[88]。[155]使用全局图像特征检索标题候选，从而生成图像描述。[232]使用基于CNN的图像表示利用适应性领域选择来检索视觉上类似的图片。[49]证实具有共识标题选择的简单K尽量搜索也能获得很好的映射效果。这种单模型搜索的优点就是它只需要单模态的表示及其上面的检索。但是这种检索需要一定的预处理，比如搜索映射的重排序[135][155][232]。这表明这种方法存在一个主要问题——单峰空间中的相似性并不总是意味着好的映射。
另一种方法是在检索过程中使用中间语义空间进行相似性比较。[56]是早期的一个手工语义空间。他们将句子和图片映射到三元组<object, action, scene>，然后在该空间进行图片标题的检索。[191]使用句子的协同表示和CNN视觉特征，而且进行双向测试。[231]构建一个视频和视频描述的协同空间。[93][32]使用跨模态哈希进行模态映射的检索。[83]使用KCCA进行图形-句子搜索；[99]提出一个多模态相似性度量，该度量在内部将图像片段和句子片段对齐。
语义空间中的检索方法貌似比单模态检索要好。因为语义空间能够反映各种模态的含义，而且它还允许双向映射。但是语义空间需要手工创建，而且依赖于巨大的训练词典。
组合模型比检索模型更进一步。它不局限于从字典进行检索示例，而是将它们以一种有意义的方式组合起来构建更好地映射。基于组合的媒体描述方法的动机是这样一个事实，即图像的句子描述共享一个可以被利用的共同和简单的结构。大多数情况下，组合规则是手工制定的或基于启发式的。
[114]首先检索描述视觉相似图像的短语，然后通过基于一些手工规则的整数线性规划将它们组合成生成查询图像的新描述；[74]首先找到与目标图像最相似的k个图片，然后提取出它们的标题然后生成目标句子；[119]使用基于CNN的图像表示来推断描述它的多个短语，然后使用一个三元约束语言模型来组合预测的多个短语。
基于例子的方法面临的问题之一是模型就是字典，使得模型很大推理很慢。另外一个问题就是期望字典中一直都有跟源例子相关的单一全面准确的映射是不现实的——除非任务很简单或词典非常大。这一问题在能够构建复杂结构的组合模型中得到部分解决。但是，它只能保证单向的模型映射，基于语义空间检索的模型能够以两种方式执行它。

4.2 Generative approaches

多模态映射的生成式方法可以根据给出的单模态源例子进行多模态映射。它既需要了解源模态而且得生成目标序列或信号，所以很具有挑战性。而且由于可能正确答案的巨大空间，也使得这种方法很难进行评估。
本文聚焦于三种模态：语言、视觉和声音。语言生成[170]、图片和视频描述[19]、语音合成也有很多经典[88]和现代[157][209]方法；逼真的图像生成也处于早期阶段[132][171]；然而，已经有许多尝试生成抽象场景 [253]、计算机图形 [45] 和会说话的头像 [6]。
我们确定了三大类生成模型：基于语法、编码器-解码器和连续生成模型。基于语法的模型通过使用语法对目标模态进行限制来简化任务，例如，通过基于“主语、宾语、动词”模板生成受限句子。编码-解码模型首先将源模态编码成潜在表示，然后输出给解码器来生成目标模态。连续生成模型基于源模态输入流连续生成目标模态，它是最适合时间序列之间的映射的——如文本和语音。
基于语法的模型依赖于生成特定模态的提前定义的语法。它们开始于检测源模态的高层含义，比如图片中的物体，视频中的动作等。然后生成步骤基于提前设定好的语法将这些检测融合起来生成目标模态。
[107]提出了一个使用视频中检测到的人物头部和手部位置和基于规则的自然语言生成来描述人物行为，该系统结合了概念和动作的层次结构。[14]提出了一个视频描述模型，它生成的句子形式为：谁对谁做了什么，他们在何处以及如何做的。该系统基于手工的object和事件分类；而且使用限制的语法来适应该任务。[73]使用语义层次来预测用于描述视频的<主语，动词，宾语>三元组，使用更一般词语以防不确定性。结合语言模型，他们的方法可以映射在字典中未出现的动词和名词。
为了描述图片，[235]提出使用基于（与或）and-or图的模型和特定领域的词汇化语法规则、目标视觉表示方案和分层知识本体一起使用。[121]首先检测物体，视觉元素、以及物体之间的稀疏关系。他们然后可以使用n-gram语言模型基于视觉提取的短语来生成<subject,preposition,object>（“主语，介词，宾语”）形式的句子。[142]使用更复杂的基于树的语言模型来生成句法树而不是填充模板，从而导致更多样化的描述。大多数方法将整个图像联合表示为一组视觉对象，而没有捕获它们的空间和语义关系。[51] 建议为图像描述生成显式建模对象的邻近关系。
一些基于语法的方法依赖于图模型来生成目标模态。BabyTalk[112]给定图片生成<宾语，介词，宾语>三元组，这些三元组与条件随机场一起使用来构造句子。[233]使用从图片抽取的视觉特征来预测<名词、动词、场景、介词>候选集，并使用统计语言模型和隐马尔可夫模型风格推断将它们组合成一个句子。[204]提出一种类似的方法，其中因子图模型用于<主语、动词、宾语、地点>形式的视频描述。因子图模型利用语言统计特征来处理视觉噪声表示。[253]提出使用条件随机场来产生基于从句子中抽取而来的语言三元组来抽象视觉场景。
基于语法的方法的优点在于它们更容易产生句法上或逻辑正确的目标实例，因为它们使用提前定义好的模板和受限制的语法。但是相应的这也使得它们的映射变得公式化死板而不具有创造性。此外，基于语法的方法依赖于复杂的概念检测管道，每个概念都需要一个单独的模型和相应训练数据集。
编码器-解码器模型基于端到端训练的神经网络，是最近最流行的多模态映射技术之一。该模型的主要思想是首先将源模态编码成一个向量表示，然后使用解码器模块来产生目标模态，所有这些都是在单通道管道中完成。
尽管如此，该模型初始应用于机器翻译[97]，后来被用来做图片说明[134][214]以及视频说明[174][213]。进来编码器-解码器模型多用来生成文本，但是也可以用来生成图片[132][171]，以及语音和声音的持续生成[157][209]。
编码器-解码器模型的第一步是对源object进行编码，这得视具体的模态而定。对声学信号进行编码的模型有RNNs[35]和DBNs[79]。编码词句的大部分工作都使用分布式语义[141]和RNNs的变形。图像大多由CNN[109][185]进行编码。虽然学习到的CNN表示对于编码图像很常见，但对于手工制作的特征仍然常用的视频来说情况并非如此[174]，[204]。虽然可以使用单模态表示来编码源模态，但是使用协同空间能够得到更好的结果[105][159][231]。
解码多用RNN或者LSTM实现，它们使用编码表示作为初始隐藏状态[54][132][214][215]。许多LSTM的扩展形式被提出来帮助解决映射问题。引导向量可用于紧密联结图像输入中的解决方案[91]。[213]证实在微调解码LSTM用于视频描述前将其在图片描述任务上进行预训练是很有好处的。 [174] 探索使用各种 LSTM 架构（单层、多层、分解）和许多训练和正则化技术来完成视频描述任务。
使用RNN模型来进行模型映射的问题之一是必须从一个图片、句子或者视频的单向量表示来生成描述。当生成长序列时这就变得非常困难因为这些模型会遗忘最初的输入。这个问题部分被神经注意力模型解决，它使得网络在生成过程中集中注意力于图片[230]句子[12]或者视频[236]的特定部分。
生成式的基于注意力的RNNs也被用于从句子生成图片的任务[132]，但是结果仍然与逼真的照片相差甚远，但它们显示出很大的希望。最近，在使用生成对抗网络[71]生成图像方面取得了大量进展，该网络已被用作从文本生成图像的RNN的替代方案[171]。
基于神经网络的编码器-解码器系统虽然已经很成功但仍然面临许多问题。[49]提出它可能只是记住训练数据而不是学习如何理解和生成视觉场景。这是基于观察到k近邻模型的性能与基于generation的模型非常相似。此外，这类模型也需要大量的数据进行训练。
连续生成模型用于序列映射，并以在线方式在每个时间步生成输出。在将一个序列映射成另一个序列时这些模型很有用，比如从文字到语音，从语音到文字，从视频到文字。已经为这种建模提出了许多不同的技术——图形模型、连续编码器-解码器方法以及各种其他回归或分类技术。需要解决的额外问题是这些模型需要模态之间的时间一致性。
许多序列到序列映射的早期工作使用图像或潜在变量模型。[47]提出使用共享的高斯过程潜在变量模型进行基于音频的视觉语音合成。这个模型创建了一个音频和视觉特征共享的潜在空间，它可以用来从一个空间生成另一个空间，同时视觉和语音在不同时间戳的时间一致性。HMM也被用来视觉语音生成[203]和文字到语音[245]的映射任务。它们还扩展到使用群体自适应训练，从而可以在不同说话者、不同语言、不同情绪上进行训练，在生成语音信号[244]或者视觉语音参数[6]时进行更多控制。
编码器-解码器模型在序列到序列建模中流行开来。[157]使用LSTM来生成基于视频的鼓槌产生的声音。虽然他们的模型能够通过根据 CNN 视觉特征预测耳蜗图来生成声音，但他们发现基于预测的耳蜗图检索最接近的音频样本会产生最佳结果。[209]提出直接对原始的音频信号进行建模来生成语音和歌曲。作者建议使用层次全连接卷积神经网络，该网络在语音合成任务上比以前的最新技术有很大的改进。RNN也被用于语音到文本的转换（语音识别）[72]。最近，基于编码器-解码器的连续方法被证明擅长从表示为滤波器组谱的语音信号中预测字母[35]——允许更准确地识别稀有和词汇表外的单词。[42]演示如何使用原始的音频信号直接进行语音识别而不用音频特征。
许多早期的工作使用图模型进行连续信号模态间的映射。然而，这些方法正在被基于神经网络编码器-解码器的技术所取代。特别是因为它们最近被证明能够表示和生成复杂的视觉和听觉信号。

4.3 Model evaluation and discussion

多模态映射方法面临的一个主要挑战是它们很难评估。一些诸如语音识别的任务有单一的正确映射，但是诸如语音合成、媒体描述却没有（确定答案）。许多时候，就像语言翻译一样，许多回答都是正确地，而确认哪一个答案更好是很主观的。幸运的是，有很多近似自动指标能够帮助我们进行模型评估。
许多时候评价主观任务最理想的方法是通过人工判断，也就是让一组人评估每个翻译。这可以在李克特量表上实现，在其中每个翻译都会被在某一维度进行评价：语音合成的自然度和平均意见得分[209][244]，视觉语音合成的真实感[6][203]，以及语法和语义的正确性、相关性、顺序和媒体描述的细节[38][112][142][213]。另外一种方法就是进行偏好学习，其中将两个（或更多）翻译呈现给参与者以便进行偏好比较[203][244]。然而用户学习将会导致评价接近人类评价，但是它们将是耗时又费钱的。此外，它们需要在构建和执行的时候尽量小心来避免流行、年龄、性别和文化的偏见。
对于媒体描述任务，虽然人类学习是评价的黄金标准，一些自动替代方案已被提出：BLEU[160], ROUGE[124],Meteor[48], and CIDEr[211]。这些指标是直接（或者基于）从机器翻译拿来的，它们计算出一个分数，该分数能够衡量生成文本和真实文本之间的相似度。然而它们的使用也招致一些批判。[52]指出句子级别一元组BLEU跟人类评价相关度很低。[87]证实对于视觉故事讲述任务，人类评价跟BLEU、Meteor的相关程度很低。此外，在MS COCO[38]挑战上基于人类判断方法的顺序和基于自动指标方法的顺序并不一致——许多算法在所有自动指标上远超人类。最后，指标仅在翻译参考较多时有效[211]，这在许多时候是无法实现的，特别是对于现在的视频描述数据库来说[205]。
这些批判使得[83]提出将搜索作为图片描述评价的代理人，他们说这样能够更好地反映人类评价。一个基于检索的系统不产生描述，而是基于它们与图片的匹配度将得到的描述进行排序，然后就可以通过评价是否正确的描述会被给予一个高排名。许多图片生成模型是生成式的所以它们可以用来直接评价给定图像描述的相似度，并且已经被图像描述社区所接受[99][105]。这些基于检索的评价指标也被视频描述社区所接受[175]。
视觉问答 (VQA) [130] 任务的提出部分原因就是由于图像描述评估面临的问题。VQA的任务就是给定一个图片以及关于图片内容的一个问题，系统必须回答该问题。由于标准答案的出现使得这样的系统很好评估。然而，它还面临诸如特定问题的歧义和回答与问题的偏差。
我们相信，解决评估问题对于多模态翻译系统的进一步成功至关重要。这将不仅能够更好地比较各种方法，而且允许更好的优化目标。

5 ALIGNMENT

我们将多模态对齐定义为来自两个或多个模态实例的子模块之间的关系和对应。例如，给定一个图像和一个描述，我们希望找到与描述的单词或短语相对应的图像区域[98]。另一个例子是，给定一部电影，将它与它所基于的剧本或书籍章节对齐[252]。
我们将多模态对齐分为两种类型——隐式和显式。在显式对齐中，我们明确地对对齐模态之间的子模块感兴趣，例如，将食谱步骤与相应的教学视频对齐 [131]。隐式对齐被用作另一个任务的中间（通常是潜在的）步骤，比如基于文本描述的图片检索可以包括单词和图像区域之间的对齐步骤[99]。可以在表4中看到此类方法的概述，并在以下各节中进行了更详细的介绍。
在这里插入图片描述

5.1 Explicit alignment

如果论文的主要建模目标是进行来自两个或多个模态的实例的子模块之间的对齐，则我们将论文归类为显式对齐。显式对齐的一个非常重要的部分是相似性度量。大多数方法依赖于测量不同模态中子模块之间的相似性作为基本构建块。这些相似性可以手动定义或从数据中学习。
我们确定了两种处理显式对齐的算法——无监督和（弱）监督。第一种类型在来自不同模态的实例之间没有直接对齐标签（即标记的对应关系）的情况下运行。第二种类型可以访问此类（有时很弱）的标签。
无监督多模态对齐处理模态对齐不需要任何直接的对齐标签。大多数方法的灵感来自统计机器翻译[28]和基因组序列[3]、[111]的早期工作中的对齐。为了使任务更容易，这些方法假设对齐有某些限制，例如序列的时间排序或模态之间存在相似性度量。
动态时间规整(DTW)[3],[111]是一种动态规划方法，已广泛用于对齐多视图时间序列。DTW测量两个序列之间的相似性，并通过时间规整（插入帧）找到它们之间的最佳匹配。它要求两个序列中的时间步长具有可比性，并且需要它们之间的相似性度量。DTW可以通过手工制作模态之间的相似度指标来直接进行多模态对齐;例如[8]使用图形和音素之间手动定义的相似性; [201]定义相似性的视觉场景和基于相同字符的外观[201]以对齐电视节目和情节提要的句子。DTW类似的动态编程方法HAVEALSO被用于文本的多模式对齐[77]和视频[202]。
由于原始DTW公式需要模态之间的预定义相似度指标，因此使用规范相关分析(CCA)对其进行了扩展，以将模态映射到协同空间。这允许在不同模态流之间以不受监督的方式对齐（通过DTW）和学习映射（通过 CCA）[180]、[250]、[251]。这允许在不同模态流之间以不受监督的方式对齐（通过 DTW）和学习映射（通过CCA）[180]、[250]、[251]。虽然基于CCA的DTW模型能够在线性变换下找到多模态数据对齐，但它们无法对非线性关系进行建模。深度规范时间规整方法[206]已经解决了这个问题，可以将其视为深度CCA 和DTW的推广。
各种图形模型也以无监督的方式广泛用于多模态序列对齐。 [239]的早期工作使用生成图形模型将图像中的视觉对象与口语对齐。[44]采用了类似的方法将电影镜头和场景与相应的剧本对齐。[131]使用因子HMM将食谱与烹饪视频对齐。[154] 使用动态贝叶斯网络将扬声器与视频对齐。[147] 使用分层HMM模型将句子与帧对齐，并使用改进的IBM[28]算法进行词和对象对齐[15]，将句子与相应的视频帧匹配。然后将该模型扩展为使用潜在条件随机场进行对齐[146]，并将动词与动作对齐，以及名词与对象对齐[195]。
用于对齐的DTW和图形模型方法都允许对对齐进行限制，例如时间一致性，时间没有大的跳跃，单调性。虽然DTW扩展允许联合学习相似性度量和对齐，但基于图形模型的方法需要专业知识来构建[44]、[239]。
监督对齐方法依赖于标记对齐的实例。它们用于训练相似性指标，这些指标用来模态对齐。
许多有监督的序列对齐技术从无监督的技术中汲取灵感。 [22]、[23] 提出了一种类似于规范时间规整（canonical time warping）的方法，但也将其扩展为利用现有（弱）监督对齐数据进行模型训练。[161]使用CCA来找到图像区域和短语之间的协同空间以进行对齐。[65]训练了一个高斯混合模型，并与一个无监督的潜在变量图形模型一起执行半监督聚类，以将音频通道中的说话者与其在视频中的位置对齐。[108]训练马尔可夫随机场将3D场景中的对象与文本描述中的名词和代词对齐。
由于最近在语言和视觉社区[133]、[161]中对齐数据集的可用性，基于深度学习的方法在显式对齐（特别是用于测量相似性）方面变得流行。 [252] 通过训练 CNN 来测量场景和文本之间的相似性，将书籍与其相应的电影/剧本对齐。[133]使用LSTM语言模型和CNN视觉模型来评估指称表达（referring expression）与图像中对象之间的匹配质量。[242]扩展此模型以包括相对外观和上下文信息，从而可以更好地消除相同类型的对象之间的歧义。最后，[85]使用基于LSTM的评分函数来查找图像区域及其描述之间的相似性。

5.2 Implicit alignment

与显式对齐相反，隐式对齐用作另一个任务的中间（通常是潜在的）步骤。这允许在包括语音识别、机器翻译、媒体描述和视觉问答在内的许多任务中获得更好的性能。这样的模型不会明确地对齐数据，也不依赖于监督对齐示例，而是学习如何在模型训练期间潜在地对齐数据。我们确定了两种类型的隐式对齐模型：基于图形模型的早期工作，以及更现代的神经网络方法。
基于图形模型的早期工作能够更好地对齐机器翻译语言之间的单词 [216]以及语音音素与其转录[186]。然而，它们需要手动构建模态之间的映射，例如生成phone模型将音素映射到声学特征 [186]。构建这样的模型需要训练数据或人类专业知识来手动定义它们。
如果对齐是潜在的中间步骤，通常可以改善建模任务，神经网络映射（第4节）就是这样的示例。正如我们之前提到的，使用编码器-解码器模型或通过跨模态检索的神经网络是解决这个映射问题的流行方法。当在没有隐性对齐的情况下映射时，它最终将大量重量放在编码器模块上，以便能够恰当地用单向量表示整个图像，句子或视频。
解决这个问题的一种非常流行的方法是通过注意力机制[12]，它允许解码器专注于源实例的子组件。这与在传统编码器-解码器模型中执行的将所有源子组件编码在一起相反。注意模块将告诉解码器更多地查看要映射的源的目标子组件——图像区域 [230]、句子中的单词 [12]、音频序列的片段 [35]、[39]、帧和视频 [236]、[241] 中的区域，甚至指令 [140] 的一部分。例如，在图像字幕中，不是使用 CNN 对整个图像进行编码，注意力机制将允许解码器（通常是 RNN）在生成每个连续单词时专注于图像的特定部分 [230]。学习要关注图像的哪一部分的注意力模块通常是一个浅层神经网络，并与目标任务（例如翻译）一起进行端到端的训练。
注意力模型也已成功应用于问答任务，因为它们允许将问题中的单词与信息源的子组件（例如一段文本[228]、图像[62]或视频序列[246]）对齐。这既可以实现更好的问答性能，又可以带来更好的模型可解释性[4]。特别是，已经提出了不同类型的注意力模型来解决这个问题，包括分层[128]、堆叠[234]和情景记忆注意力[228]。
[98][99]提出了另一种用于将图像与描述对齐以进行跨模式检索的神经替代方法。他们提出的模型通过使用图像区域和单词表示之间的点积相似性指标将句子片段与图像区域对齐。虽然它不使用注意力，但它通过训练检索模型间接学习的相似性指标来提取模态之间的潜在对齐。

5.3 Discussion

多模态对齐面临许多困难：1）具有明确注释对齐的数据集很少； 2）难以设计模态之间的相似性度量；3）可能存在多种可能的对齐，并且并非一种模态中的所有元素在另一种模态中都具有对应关系。多模态对齐的早期工作侧重于使用图形模型和动态规划技术以无监督方式对齐多模态序列。它依靠手动定义的模态之间的相似性指标或以无监督的方式学习它们。随着最近标记训练数据的可用性，模态之间相似性的监督学习已经成为可能。然而，学习联合对齐和映射或融合数据的无监督技术也变得流行。

6 FUSION

多模式融合是多模态机器学习的原始主题之一，先前的研究强调早期，晚期和混合融合方法[50]，[247]。在技术术语中，多模态融合是将来自多种模态的信息与预测结果度量的目标相结合的概念：通过分类得到一个类（例如，happy vs. sad），或者通过回归得到一个连续值（例如，积极的情绪）。它是多模态机器学习研究最多的方面之一，其工作可追溯到25年前[243]。
对多模态融合的兴趣源于它可以提供的三个主要好处。首先，能够获取观察到的同一个现象的多种模态可能允许更鲁棒性的预测。AVSR社区特别探索和利用了这一点[163]。其次，访问多种模态可能使我们能够获取互补信息——这些信息在单独的模态中是不可见的。第三，当其中一种模态缺失时，多模态系统仍然可以运行，例如当人不说话时从视觉信号中识别情绪[50]。
多模态融合具有非常广泛的应用范围，包括视听语音识别（AVSR）[163]、多模态情感识别[192]、医学图像分析[89]和多媒体事件检测[117]。有许多关于该主题的评论[11]、[163]、[188]、[247]。他们中的大多数专注于针对特定任务的多模态融合，例如多媒体分析、信息检索或情感识别。相比之下，我们专注于机器学习方法本身以及与这些方法相关的技术挑战。
虽然一些先前的工作使用术语多模态融合来概括所有多模态算法，但在本调查论文中，当多模态集成在稍后的预测阶段中执行时，我们将方法归类为融合类别，目的是预测结果指标（outcome measures）。在最近的工作中，对于表示学习与分类或回归目标交织的深度神经网络等模型，多模态表示和融合之间的界限已经变得模糊。正如我们将在本节中描述的那样，这条线对于其他方法（例如图形模型和基于内核的方法）更加清晰。
我们将多模态融合分为两大类：不直接依赖于特定机器学习方法的模型不可知方法（第 6.1 节）；以及在其构建中明确解决融合问题的基于模型的方法（第 6.2 节）——例如基于内核的方法、图形模型和神经网络。此类方法的概述见表5。

在这里插入图片描述

6.1 Model-agnostic approaches

从历史上看，绝大多数多模态融合都是使用与模型无关的方法完成的 [50]。这种方法可以分为早期（即基于特征）、晚期（即基于决策）和混合融合[11]。早期融合在特征被提取后立即集成（通常通过简单地连接它们的表示）。另一方面，后期融合在每个模态做出决定（例如分类或回归）后执行整合。最后，混合融合结合了早期融合和单个单模态预测器的输出。模型不可知方法的一个优点是它们几乎可以使用任何单模态分类器或回归器来实现。
早期融合可以看作是多模态研究人员进行多模态表征学习的初步尝试——因为它可以学习利用每个模态的低级特征之间的相关性和相互作用。而且它只需要训练单个模型，使得其训练管道与后期和混合融合相比更容易。
相比之下，后期融合使用单模态决策值并使用诸如平均[181]、投票方案[144]、基于通道噪声的加权[163]和信号方差[53]或学习模型[68] [168]等融合机制将它们融合。它允许为每个模态使用不同的模型，因为不同的预测器可以更好地为每个单独的模态建模，从而提供更大的灵活性。此外，当多模态中的一种或多种缺失时，它可以更轻松地进行预测，甚至可以在没有并行数据时进行训练。然而，后期融合忽略了模态之间的低级交互。
混合融合试图在通用框架中利用上述两种方法的优点。它已成功用于多模态说话者识别[226]和多媒体事件检测(MED)[117]。

6.2 Model-based approaches

虽然使用单模态机器学习方法很容易实现与模型无关的方法，但它们最终会使用并非旨在处理多模态数据的技术。在本节中，我们描述了三类旨在执行多模态融合的方法：基于内核的方法、图模型和神经网络。
多核学习（Multiple kernel learning (MKL)）方法是核支持向量机 (SVM) 的扩展，它允许将不同的核用于不同的数据模态/视图[70]。由于核可以被视为数据点之间的相似性函数，因此MKL中特定于模态的核可以更好地融合异构数据。
MKL方法一直是一种特别流行的方法，用于融合视觉描述以进行目标检测 [31]、[66]，并且直到最近才被深度学习方法在该任务上锁超越[109]。他们还看到了多模态情感识别 [36]、[90]、[182]、多模态情感分析 [162] 和多媒体事件检测 (MED) [237] 的用途。此外， [137] 提出使用MKL从声学、语义和社会视图数据进行音乐艺术家相似度排名。最后，[125] 在阿尔茨海默病分类中使用 MKL 进行多模态融合。它们的广泛适用性证明了这种方法在不同领域和不同模式中的优势。
除了内核选择的灵活性外，MKL 的一个优点是损失函数是凸的，允许使用标准优化包和全局最优解进行模型训练 [70]。此外，MKL 可用于执行回归和分类。MKL的主要缺点之一是在测试期间依赖训练数据（支持向量），导致推理速度缓慢和内存占用量大。
图形模型是多模态融合的另一个流行方法家族。在本节中，我们对基于浅层图模型的多模态融合的工作进行概览。深层图模型诸如深度置信网络的描述见3.1模块。
大多数图形模型可以分为两大类：生成式——建模联合概率；或判别式——建模条件概率[200]。一些最早使用图形模型进行多模态融合的方法包括生成模型，如耦合隐马尔可夫模型[149]和阶乘隐马尔可夫模型[67]与动态贝叶斯网络[64]。最近提出的多流（multi-stream）HMM方法提出了AVSR[75]模态的动态加权。
可以说，生成模型失去了诸如条件随机场（CRF）[115]等判别式模型的流行度，后者为了预测能力而牺牲了联合概率的建模。通过结合图像描述的视觉和文本信息，使用 CRF 模型更好地分割图像[60]。CRF 模型已经扩展到使用隐藏条件随机场[165]对潜在状态进行建模，并已应用于多模态会议分割（multimodal meeting segmentation）[173]。隐变量判别图模型的其他多模态应用包括多视图 hidden CRF [194] 和隐变量模型 [193]。最近， [93]已经展示了多模态隐藏条件随机场对多媒体分类任务的好处。虽然大多数图形模型都针对分类，但 CRF 模型已扩展到用于回归的连续版本 [164] 并应用于多模态设置（multimodal settings）[13]以进行视听情感识别。
图模型的好处是它们能够轻松利用数据的空间和时间结构，使它们特别适用于时间建模任务，例如AVSR和多模态情感识别。它们还允许将人类专家知识构建到模型中。并且经常导致可解释的模型。
神经网络已广泛用于多模态融合任务[151]。最早使用神经网络进行多模态融合的例子来自于AVSR [163]。如今，它们被用于融合视觉和媒体问答[63]、[130]、[229]、手势识别[150]、情感分析[96]、[153]和视频描述生成[94]的信息。虽然使用的模态、架构和优化技术可能不同，但在神经网络的联合隐藏层中融合信息的一般思想是相同的。
通过使用 RNN 和 LSTM，神经网络也被用于融合时间多模态信息。使用双向 LSTM 的早期此类应用程序之一用于执行视听情感分类（audio-visual emotion classification）[224]。最近， [223] 使用 LSTM 模型进行连续多模态情感识别，证明其优于图模型和 SVM。同样， [152] 使用 LSTM 进行连续情绪预测。他们提出的方法使用 LSTM 来融合来自特定模态（音频和面部表情）LSTM 的结果。
通过RNN网络处理模态融合已经用于各种图像标题任务，示例模型包括：使用LSTM语言模型进行解码CNN图像表示，gLSTM [91] 在每个时间步将图像数据与句子解码结合在一起，将视觉和句子数据融合到一个联合表示中。最近的一个例子是Rajagopalan等人提出的多视图LSTM（MV-LSTM）模型。 [166] .MV-LSTM模型通过明确地建模了特定模型和跨模型交互，可以灵活地融合LSTM框架。
深度神经网络方法在数据融合中的一大优势是它们能够从大量数据中学习。其次，最近的神经架构允许对多模态表示组件和融合组件进行端到端的训练。最后，与非基于神经网络的系统相比，它们表现出良好的性能，并且能够学习其他方法难以解决的复杂决策边界。
神经网络方法的主要缺点是缺乏可解释性。很难说预测依赖于什么，哪些模式或特征起着重要作用。此外，神经网络需要大量的训练数据集才能成功。

6.3 Discussion

多模态融合一直是一个广泛研究的课题，提出了大量方法来解决它，包括模型不可知方法、图模型、多核学习和各种类型的神经网络。每种方法都有自己的优点和缺点，其中一些更适合较小的数据集，而另一些则在嘈杂的环境中表现更好。最近，神经网络已成为处理多模态融合的一种非常流行的方法，但是图模型和多核学习仍在使用，特别是在训练数据有限或模型可解释性很重要的任务中。
尽管取得了这些进步，多模态融合仍然面临以下挑战：1）信号可能不是时间对齐的（可能是密集的连续信号和稀疏事件）； 2) 难以构建利用补充信息而不仅仅是补充信息的模型； 3）每种模态在不同时间点可能表现出不同类型和不同级别的噪声。

7 CO-LEARNING

我们分类法中的最后一个多模态挑战是共同学习——通过利用来自另一个（资源丰富）模态的知识来帮助（资源贫乏）模态建模。当其中一种模态资源有限时尤其重要——缺乏带注释的数据、嘈杂的输入和不可靠的标签。我们将这种挑战称为协同学习，因为辅助模态通常仅在模型训练期间使用，在测试期间不使用。我们根据其训练资源确定了三种类型的协同学习方法：并行、非并行和混合。并行-数据方法需要训练数据集，其中来自一种模态的观察结果与来自其他模态的观察结果直接相关。换句话说，当多模态观察来自相同实例时，例如在视听语音数据集中，其中视频和语音样本来自同一说话者。相比之下，非并行数据方法不需要来自不同模态的观察之间的直接链接。这些方法通常通过使用类别重叠来实现协同学习。例如，在零样本学习中，使用来自维基百科的第二个纯文本数据集扩展传统的视觉对象识别数据集，以提高视觉对象识别的泛化能力。在混合数据设置中，模态通过共享模态或数据集进行桥接。共同学习方法的概述可以在表6中看到，数据并行性的总结在图 3 中。
在这里插入图片描述

7.1 Parallel data

在并行数据协同学习中，两种模式共享一组实例——带有相应视频、图像及其句子描述的录音。这允许两种类型的算法利用该数据来更好地对模态进行建模：协同训练和表示学习。
协同训练是当我们在多模态问题上很少有标记的样本时创建更多标记的训练的过程[21]。基本算法在每个单模态构建弱分类器，以通过未标记的数据引导彼此。已经证明可以发现更多的基于网页本身和超链接的网页分类训练样本，这在[21]的开创性工作中领先。根据定义，此任务需要平行数据，因为它依赖于多模式样本的重叠。
协同训练已用于统计解析 [178] 以构建更好的视觉检测器 [120] 和视听语音识别[40]。通过过滤掉不可靠的样本[41]，它还扩展到处理模式之间的分歧。虽然协同训练是一种生成更多标记数据的强大方法，但它也可能导致训练样本有偏差，从而导致过拟合。
迁移学习是另一种利用并行数据进行协同学习的方法。多模态表示学习（第 3.1 节）方法，例如多模态深度 Boltzmann 机器 [198] 和多模态自动编码器 [151]，将信息从一种模态的表示转移到另一种模态的表示。这不仅会导致多模态表示，而且会导致更好的单模态表示，在测试期间只使用一种模态 [151]。

7.2 Non-parallel data

依赖于非并行数据的方法不需要模态具有共享实例，而只需要共享类别或概念。非并行协同学习方法可以在学习表示时提供帮助，允许更好的语义概念理解，甚至执行看不见的对象识别。
迁移学习也可以在非并行数据上进行，并且允许通过将信息从使用数据丰富或干净的模式构建的表示转移到数据稀缺或嘈杂的模式来学习更好的表示。这种类型的迁移学习通常是通过使用协调多模态表示来实现的（参见第3.2节）。例如，[61]通过协调CNN视觉特征和word2vec文本特征 [141] 在单独的大数据集上训练，使用文本来改进图像分类的视觉表示。以这种方式训练的视觉表示会导致更有意义的错误——将对象误认为是相似类别的对象 [61]。[129]演示了如何使用在3D骨架数据上训练的自动编码器 LSTM 通过强制隐藏状态之间的相似性来规范基于彩色视频的LSTM。这种方法能够改进原始LSTM并在动作识别方面达到最先进的性能。
概念接地是指非纯粹基于语言的语义均值或概念，但也涉及诸如视觉，声音甚至气味[16]。虽然大多数概念学习方法纯粹是基于语言的，但非人类意义的表征不仅是我们语言暴露的产物，而且还基于我们的感觉运动经验和感知系统 [17]、[126]。人类语义知识在很大程度上依赖于感知信息 [126] 并且许多概念都基于感知系统，而不是纯粹的符号化[17]。这意味着纯粹从文本信息中学习语义可能不是最佳的，并促使使用视觉或听觉线索来为我们的语言表示奠定基础。
从 [59] 的工作开始，grounding通常通过在表示[59]、[183]（在并行数据集的情况下）之间找到一个共同的潜在空间或通过单独学习单模态表示然后将它们连接起来[29]、[101]、[172]、[181]（在非平行数据的情况下）。一旦构建了多模态表示，它就可以用于纯语言任务。[181]和[29]使用接地表示（grounded representations）来更好地分类隐喻和文字语言。这种表示对于测量概念相似性和相关性也很有用——确定两个词在语义或概念上的相关性[30]、[101]、[183] 或动作上的相关性[172]。此外，概念不仅可以使用视觉信号，还可以使用声学信号，从而获得更好的性能，尤其是在具有听觉关联的单词[103]，甚至是具有嗅觉关联的单词的嗅觉信号[102]上。最后，多模态对齐和概念基础之间有很多重叠，因为将视觉场景与其描述对齐会导致更好的文本或视觉表示 [108]、[161]、[172]、[240]。已经发现概念基础是提高许多任务性能的有效方法。它还表明语言和视觉（或音频）是互补的信息来源，将它们结合在多模态模型中通常可以提高性能。但是，必须小心，因为grounding并不总是会带来更好的性能 [102]、[103]，并且只有在grounding与任务相关时才有意义——例如grounding使用图像来处理与视觉相关的概念。
零镜头学习 (ZSL) 是指在没有明确看到任何示例的情况下识别一个概念。例如，在从未见过（标记）猫的图像的情况下对图像中的猫进行分类。这是一个需要解决的重要问题，因为在许多任务中，例如视觉对象分类：为每个可以想象的感兴趣对象提供训练示例的成本高得令人望而却步。
ZSL 有两种主要类型——单模态和多模态。单模态 ZSL 查看对象的组成部分或属性，例如音素以识别未听过的单词或视觉属性（例如颜色、大小和形状）以预测不可见的视觉类 [55]。多模态ZSL通过次要模态的帮助识别主要模态中的物体——在该模态中已经看到了对象。根据定义，ZSL的多模态版本是面临非平行数据的问题，因为所见类别的重叠在模态之间不同。
[190]将图像特征映射到概念词空间，并且能够在可见和不可见概念之间进行分类。然后可以将看不见的概念分配给接近视觉表示的单词——这是通过在已经看到更多概念的单独数据集上训练语义空间来实现的。而不是学习从视觉到概念空间的映射 [61]学习允许ZSL的概念和图像之间的协调多模态表示。[158]基于功能磁共振（magnetic resonance）图像对人们正在考虑的单词进行预测，他们展示了如何通过使用中间语义空间来预测看不见的单词。[118]通过神经网络将提取的视觉特征向量映射到基于文本的向量，提出了ZSL的快速映射方法。

7.3 Hybrid data

在混合数据设置中，两个非并行模式通过共享模式或数据集进行桥接（见图 3c）。最显著的例子是 Bridge CorrelationalNeural Network [167]，它使用枢轴模态来学习存在非并行数据的协调多模态表示。例如，在多语言图像字幕的情况下，图像模态将始终与任何语言的至少一个字幕配对。此类方法也已用于桥接可能没有平行语料库但可以访问共享枢轴语言的语言，例如机器翻译 [148]、[167] 和文档音译 [100]。
不是使用单独的桥接模式，一些方法依赖于类似的或相关任务的大数据集的存在，以导致更好的性能，该任务中只能获取有限的注释数据。[189] 使用大文本语料库的存在来指导图像分割。而[78]使用单独训练的视觉模型和语言模型来产生更好的图像和视频描述系统，其中只有有限的数据可用。

7.4 Discussion

多模态联合学习允许一种模态影响另一种模态的训练，利用跨模态的互补信息。值得注意的是，协同学习是独立于任务的，可用于创建更好的融合、翻译和对齐模型。这一挑战的例子包括协同训练、多模态表示学习、概念基础和零镜头学习(ZSL)等算法，并在视觉分类、动作识别、视听语音识别和语义相似性估计中发现了许多应用。

8 CONCLUSION

作为本次调查的一部分，我们介绍了多模态机器学习的分类：表示、翻译、融合、对齐和协同学习。其中一些（例如融合）已经研究了很长时间，但是最近对表示和翻译的兴趣导致了大量新的多模态算法和令人兴奋的多模态应用。
我们相信我们的分类法将有助于对未来的研究论文进行编目，并更好地了解多模态机器学习面临的尚未解决的问题。