多模态机器学习的技术挑战,具体如下所示:
1. 表征Representation,即为如何利用多种模态的互补性和冗余性的方式表示和总结多模态数据。多模态数据的异质性使得构建这样特定的表征具有一定的挑战性。例如,语言通常是象征性的,而音频和视觉形式则被表示为信号。单模态的表征负责将信息表示为计算机可以处理的数值向量或者进一步抽象为更高层的特征向量,而多模态表征是指通过利用多模态之间的互补性,消除模态间的冗余性,从而学习到更好的特征表示。表征的主要方式分为联合表征以及协同表征。联合表征为将多个模态的信息一同映射到一个统一的多模态向量空间中去,联合结构注重捕获多模态的互补性。协同表征为将多模态中的每个模态分别映射到各自的表示空间中去,但映射后的向量之间满足一定的相关性约束(例如线性相关)。协同结构并不是寻求融合而是在建模多种模态数据之间的相关性,它将多个(通常是两个)模态映射到协作空间,网络的主要优化目标为这种特定的协作关系(通常为相似性,即最小化cosine距离等度量)。注意:协同学习所学习到的特征向量之间满足加减算数运算特性,可以用于搜索出与给定图像满足“指定转换语义”的图像。
2. 翻译Translation,即为如何将数据从一种模式转化(映射)到另一种模式。不仅数据是异构的,而且模态之间的关系通常是开放的或者主观的。例如,存在多种描述图像的正确方法,并且可能不存在一种完美的翻译。常见的应用有机器翻译、图片描述、视频描述、语音合成(Speech Synthesis)(此为根据输入的文本信息,自动合成一段语音信号。)主要研究方法有基于实例的方法和模型驱动的方法。
基于实例的方法为从词典中检索最佳翻译,其直接检索在词典中找到最匹配的翻译结果,并将其输出。检索的方法有单模态检索与跨模态检索两种方法,其中跨模态检索是在另一个模态集合中,直接检索相对应的结果,其性能通常优于单模态检索。并且,跨模态检索为了进一步曾琪检索结果的准确性,我们可以选择top-K的检索结果,再将这K个结果融合作为最终的输出结果。
模型驱动的方法即为首先在字典上训练一个翻译模型,之后利用该模型进行翻译。主要模型有基于语法的模型、编码-解码器模型、连续型生成模型。
翻译评估的困境,多模态翻译方法所面临的一个主要挑战即为它们很难进行评估。人工评估是最理想的方法,但是费时费力,且需要多样化打分人群的背景以避免偏见。自动化指标为视觉描述领域常用的替代方法,包括BLEU等,但它们被证实与人的评价相关性较弱。基于检索的评估和弱化任务也是一种解决手段。
3. 对齐Alignment,即为从两种或多种不同的模态中识别(子)元素之间的直接关系。为解决这一问题,我们需要测量不同模式之间的相似性并处理可能的长期依赖和歧义。
显式对齐Explicit Alignment,即如果模型的主要目标为对齐来自两个或多个模态的子元素,即为在进行显式对齐。显式对齐的一个重要工作即为相似性度量,大多数方法均依赖度量不同模态的子组件之间的相似性来作为基本构建块。存在无监督、弱监督以及有监督三种对齐方法。(无监督对齐即为给定两个模态的数据作为输入,希望模型实现子元素的对齐,但是训练数据没有“对齐结果”的标注,模型需要同时学习相似度度量和对齐方式)
隐式对齐Implicit Alignment,其用作另一个任务的中间(通常是潜在的)步骤,这允许在许多任务中有更好的表现,包括语音识别、机器翻译、媒体描述和视觉问题回答VQA。这些模型不显式地对齐数据,也不依赖于有监督地对齐示例,而是在学习如何在模型训练期间潜在地对齐数据。
4. 融合Fusion,即为结合来自两个或多个模态的信息来执行预测。来自不同模态的信息可能具有不同的预测能力和噪声拓扑,并且可能在至少一种模态中丢失数据。
融合主要有模型无关的方法以及基于模型的方法。对于模型无关的方法,主要有早期融合(Early Fusion)、后期融合(Late Fusion)以及混合融合(Hybird Fusion)。
早期融合只需要训练一个共同的模型,复杂度可控。但是,由于多个模态的数据来源不一致,会给拼接造成很大的难度,并且直接对原始数据进行拼接会引起较大的特征维度,对数据预处理也非常敏感。
后期融合,独立训练多个模型,在预测层(最后一层)进行融合,可以理解为集成方法的一种。在后期融合中,各模态单独处理,特征独立互不影响,即使某个模态信息丢失也可以正常训练,具备很强的灵活性。但是,该方法没有充分利用模态间底层特征的相关性,并且由于涉及到多个模态的分别训练,会带来较大的计算复杂度。
混合融合,其同时结合早期融合与后期融合,以及在模型中间层进行特征交互。混合融合是一种逐级融合的方式,在不同的层级上依次对不同模态进行融合。这种方法既利用了模态间信息的相关性,也具有一定的灵活性,目前大部分多模态融合均采用这种方法。
对于基于模型的方法,主要有以下三种:
深度神经网络,神经网络进行端到端的训练,使用LSTM、卷积层、注意力层、门机制、双线性融合等设计序列数据或图像数据的复杂交互。
多核学习,其主要将不同的核用于不同的数据模态或者视图中。
图模型Graphical Models,利用隐马尔可夫模型或贝叶斯网络建模数据的联合概率分布(生成式)或条件概率(判别式)