浅读多模态学习综述

摘要:

在多模态深度学习发展前期总结当前多模态深度学习,发现在不同多模态组合和学习目标下,多模态深度学习实现过程中的共有问题,并对共有问题进行分类,叙述解决各类问题的方法。具体来说,从涉及自然语言、视觉、听觉的多模态学习中考虑了语言翻译、事件探测、信息描述、情绪识别、声音识别和合成以及多媒体检索等方面研究,将多模态深度学习实现过程中的共有问题分为模态表示、模态传译、模态融合和模态对齐四类,并对各类问题进行子分类和论述,同时列举了为解决各类问题产生的神经网络模型。最后论述了实际多模态系统、多模态深度学习研究中常用的数据集和评判标准,并展望了多模态深度学习的发展趋势。

一、模态表示

模态定义:模态表示是在机器学习中提取一个或多个模态数据的语义信息的过程。它分为单模态表示和多模态表示两种形式。

  • 单模态表示:针对单个模态信息进行线性或非线性映射,得到该模态信息的高阶语义特征表示。单模态可以是语句、图像、视频、声音等类型,每种模态可能需要使用不同的神经网络模型进行处理。

  • 多模态表示:基于单模态表示,对单模态表示的结果进行约束,以实现模态之间的共享语义表示或模态之间的语义一致性。多模态表示通过处理混合数据中各个模态的信息,使得具有相似语义的模态具有相似的表示结果。单模态表示是多模态表示的基础,而多模态表示应该包含混合数据中各个模态的信息。

总结:模态表示是通过映射和处理单个或多个模态数据,提取其语义信息的过程。单模态表示是针对单个模态的高阶特征表示,而多模态表示是在单模态表示基础上,实现模态之间的语义共享或一致性。

1.1、单模态表示

1.1.1、语句模态表示

a) 单词模态的独热表示:将语句模态中的单词或字简单地转换为独热向量,以表示其存在与否。这种表示方法没有考虑单词的语义信息。

b) 单词模态的低维空间表示:通过线性方程将单词或字的独热表示向量映射到一个低维语义空间中。在这个语义空间中,具有相似语义的单词或字的表示向量距离较近。这种表示考虑了单词的语义相似性。

c) 单词序列模态的袋子表示:将单词序列表示为一个维度等于词典大小的向量,其中元素取值为0或1,表示单词的存在与否。袋子表示忽略了单词在序列中的先后顺序。n-grams袋子表示是在袋子表示的基础上考虑了n-grams词典,用0和1表示句子中是否存在n-grams。这种表示方法简单有效,但没有考虑单词的语义信息。

d) 单词序列模态的低维空间表示:为了获取单词序列模态的语义表示,可以将单词序列映射到低维语义空间中。一种简单的方法是对单词序列中的各个单词的语义表示向量进行加权平均。另一种方法是按照句子解析树的顺序组织单词,将句子表示为矩阵。然而,这些方法都存在一定的缺点。

为了改进这些方法,研究者提出了一些新的模型。其中包括基于前向神经网络的段落向量记忆分布模型,使用卷积神经网络对句子的n-grams表示进行处理,构建编码器-解码器模型,以及使用递归神经网络将序列单词映射为固定维度的隐层向量等。

这些模型在句子模态处理中取得了良好的效果。递归神经网络尤其受到关注,因为它可以处理可变长度的输入序列,并且当前输出与之前输入有关,递归神经网络成为句子模态处理中非线性映射的主流模型。

总结:单词序列模态的低维空间表示方法包括加权平均和基于句子解析树的表示。为了改进这些方法,研究者提出了基于前向神经网络、卷积神经网络、编码器-解码器模型和递归神经网络等模型。递归神经网络在句子模态处理中具有广泛应用,并成为非线性映射的主流模型。

1.1.2视觉模态的表示

  • 视觉模态的表示主要涉及图像模态和视频模态。

  • 图像模态的表示

    在图像模态的表示发展中,传统的多层感知器方法在处理图像时效果不佳,而卷积神经网络(CNN)则取得了重大突破。CNN通过卷积和池化操作对图像进行特征提取,并将提取的特征输入全连接层或全局均值池化层,得到图像的特征向量表示。著名的CNN模型包括LeNet-5、AlexNet、VGG、GoogLeNet和ResNet等,它们通过不同的网络结构和参数设置,提高了图像识别的准确性和表达能力。对于视频模态,它在时间维度上展开成图像序列。因此,学习视频模态的关键问题是学习图像模态的向量表示。研究者使用单通道卷积神经网络和双通道卷积神经网络来表示视频模态。这些网络结构在视频的各个帧上进行卷积和池化操作,得到视频模态的表示。此外,还有一些改进的网络结构用于图像模态的表示。例如,NIN(Network in Network)提出了MLPconv层,它在感受野中进行复杂的运算,获得高度非线性的图像矩阵表示。GoogLeNet引入了Inception模块,它包含不同尺寸的卷积核,能够提取不同尺度的特征。CapsNet是对卷积神经网络的拓展,使用胶囊作为基本单元,能够捕捉图像中实例的方向和空间信息。
  • 视频模态的表示

    视频模态的表示涉及到视频的空间属性和时间属性。视频是在时间维度上的图像序列,因此其表示应该包含空间和时间两个属性信息。

    对于视频的空间属性,主要是通过卷积神经网络(CNN)来提取。单通道卷积神经网络将连续的图像帧作为输入,通过卷积神经网络完成时间和空间信息的融合,并在全连接层之前生成连续图像帧的向量表示。在单通道卷积神经网络中,常用两种方式来提取视频的时空属性:一种是改变卷积神经网络的结构,在输入端或输出端融合时间和空间信息;另一种是使用3D卷积核,将多个连续图像帧的堆叠作为输入进行卷积运算,提取视频的时空特性。

    双通道卷积神经网络也处理视频中的连续图像帧,但它使用两个卷积神经网络分别学习时间属性和空间属性,并在全连接层之前生成连续图像帧的时间属性表示和空间属性表示。双通道卷积神经网络的输入包括图像帧输入和运动图像输入,图像帧输入表示连续图像帧中的空间信息,而运动图像输入表示经过光流位移场等技术处理后的时间信息。

    Simonyan等人提出了双通道卷积神经网络用于视频模态的表示。该网络由两个并行的卷积神经网络组成,一个用于学习视频的空间信息,输入为单个图像帧;另一个用于学习连续图像帧的光流位移场,用于表示视频的时间信息。随后的研究者在此基础上不断拓展视频的时间信息通道,以获得更好的时间属性表示。

    其中,Wang等人提出了基于双通道卷积神经网络的轨迹池化卷积映射方法,通过时空正则化或频道正则化对各卷积层的输出进行处理,并采用费舍尔向量编码对轨迹池化结果进行编码,形成高维特征表示。此外,还将双通道卷积神经网络拓展到处理长视频,通过对长视频进行分段或抽样,将每个图像帧序列输入双通道卷积神经网络,融合空间和时间表示来生成整个长视频的模态表示。

    研究者还提出了时间分段网络对视频进行分段处理,每个分段提取空间和时间信息表示,并将它们融合成整个视频的空间和时间表示。另外,对于未经处理的视频进行动作识别的研究,采用均匀抽样或基于镜头的抽样策略对视频进行采样,通过双通道卷积神经网络处理每个采样视频,获得空间和时间表示。

    为了进一步提取时间序列的特征,研究者将LSTM引入上述网络结构中,构建混合神经网络。混合神经网络的基本思想是将卷积神经网络的输出作为LSTM网络的输入,逐帧输入图像帧或运动图像,卷积神经网络提取图像信息,而LSTM读取图像的向量表示并产生一个隐变量,随时间更新。在单通道卷积神经网络中,Donahue等人在卷积神经网络后添加了一个双层LSTM网络,用于学习图像帧的时间信息,产生融合了视频的空间和时间信息的隐变量。在双通道卷积神经网络中,Wu等人在两个卷积神经网络的全连接层后分别添加双层LSTM网络,用于学习图像帧和运动图像的空间和时间信息,产生融合了视频的时间和空间信息的隐变量。

1.1.3声音模态的表示

声音模态的表示是指提取声音信号的语义特征向量。在当前的声音处理模型中,声音模态的表示主要包括将声音模拟信号转换为数字信号、提取特征向量以及对特征向量进行高阶表示这两个过程。

根据模型结构的不同,声音模态的提取可以分为以下三种结构:混合模型、神经网络模型和编码器-解码器模型。

  • 声音特征向量的提取涉及将声音信号转换为数字信号并进行声学特征提取。首先,声音信号需要经过数字化处理,将连续的模拟信号转换为离散的数字信号序列,以便计算机进行存储和处理。然后,利用数字信号处理技术和相关的生理学和语音学先验知识,提取声学特征向量。目前常用的声音信号处理技术包括傅里叶变换、线性预测和倒谱分析等方法。这些方法可以提取一些常用的声学特征,如梅尔频率倒谱系数(MFCC)、感知线性预测(PLP)、线性预测编码(LPC)和线性预测倒谱系数(LPCC)等。

    为了增强声学特征的区分性、降低模型复杂度并提高识别效率,研究人员还提出了一些特征加工方法,如主成分分析(PCA)、线性判别分析(LDA)和异方差线性判别分析(HLDA)等。这些方法可以用于特征变换和特征降维。

    近年来,研究人员还提出了将特征提取和声音模型训练结合在一起的方法。例如,利用区分性训练算法对基础特征进行变换(如fMPE和RDLT),以及利用不同的神经网络提取特征(如Tandem特征和Bottleneck特征)等方法。

  • 提取特征的高阶表示:

    a)提取特征向量的高阶表示是指使用神经网络对声音特征向量进行多级非线性映射,学习其中包含的不同抽象层次的信息。在声音识别系统中,神经网络通常与隐马尔可夫模型(HMM)组成混合模型,即ANN-HMM混合模型。在这种混合模型中,HMM用于建模声学单元和语音特征序列之间的关系,而深度神经网络用于建模声学特征向量与HMM状态的关系,即学习给定声音特征向量的后验概率。特征向量的高阶表示即为神经网络输出层的输出,它经过高度非线性映射,包含了特征向量中的声学单元信息。

    Bourlard等人首次引入神经网络到声音识别的声学模型中,建立了ANN-HMM声学模型,展现了神经网络在特征表示方面的优秀能力。随后,研究人员使用不同的神经网络结构来学习声音的模态表示能力,如DBN-HMM声学模型、RNN-HMM声学模型和混合网络模型等。

    随着HMM的发展和改进,声学单元从单音素发展为三音素,HMM演变为三音子模型。Dahl等人提出了CD-DNN-HMM声学模型,通过使用DBN学习给定特征向量关于三音子模型中HMM状态的后验概率,构建了考虑相邻声音信号相互作用关系的声音识别模型。

    经过长时间的实验研究,研究人员证实了混合模型对于声音识别系统的促进作用,卷积神经网络能增加特征向量高阶表示的鲁棒性,RNN能将声音信号的依赖关系添加到特征向量的高阶表示中。然而,NN-HMM混合模型的结构复杂,需要在模态转换过程中对模型的各个部分进行控制。此外,当前常用的混合模型训练过程复杂,需要多个阶段,包括训练高斯混合模型-隐马尔可夫模型(GMM-HMM)以生成标签和训练数据集,然后在生成的训练数据集上训练神经网络,并反复迭代这个过程直到收敛。                                                                             b)使用神经网络构建音素识别模型是一种方法,通过神经网络提取特征向量中的音素信息,获得高度非线性映射的结果,实现音素识别。例如,在网络的最后一层使用softmax函数计算音素出现的概率,其结果即为给定特征向量的音素信息的高阶表示。

    早期的神经网络模型中,研究人员使用设计的目标函数对神经网络进行训练构建音素识别模型。这些模型在训练过程中使用帧级对齐的训练数据,其中每个帧的声音信号都有一个标注音素。一种模型是时滞神经网络(TDNN),它在网络中引入滞后单元以模拟声音信号中帧之间的时间关系,通过多层网络学习非线性的决策平面,实现音素序列识别。另一种模型是双向LSTM(BLSTM),它使用LSTM网络对声音信号的时间流进行建模,并使用双向LSTM对当前帧及其前后信息进行建模,从而实现对序列帧的音素识别。

    为了省去人为的帧级对齐过程,研究人员提出了使用连接主义暂态分类器(CTC)目标函数的方法。在CTC声音模型中,声音信号的标签集合包括音素标签和一个空格标签,标签集合的元素个数为K。神经网络为RNN,将连续的T帧声音特征向量序列作为输入,输出层有K个节点,每个节点对应标签集合中的一个元素。利用softmax函数进行归一化后,计算输入向量对应标签的概率。通过CTC的目标函数和动态规划解码,可以生成输入信号对应的音素序列。

    与混合结构的声音模型相比,神经网络构建的音素识别模型具有相对简单的结构和训练过程。由于训练目标的不同,神经网络构建的音素识别模型的特征向量高阶表示主要包含特征向量的音素信息,而不同于混合结构的声音模型获得的声学单元信息的高阶表示。

    神经网络可以用于构建编码器-解码器结构的声音识别模型。在这种结构中,编码器用于学习声音数字信号的高阶特征表示,通常包含RNN结构,使得生成的高阶特征表示中包含输入特征序列的前后帧信息。

    不同模型结构产生的声音信号的高阶表示虽然都包含语义信息,但它们各自侧重于不同的信息。混合结构的声音模型主要包含声学单元信息的高阶表示,神经网络模型主要包含特征向量的音素信息的高阶表示,而编码器-解码器结构主要包含特征向量的声音语义信息的高阶表示。

    总结起来,神经网络在声音识别模型中可以用于构建编码器-解码器结构,编码器学习声音数字信号的高阶特征表示,其中RNN结构常用于捕捉前后帧信息,从而获得包含声音语义信息的高阶表示。

1.2多模态表示

多模态表示是指将多个模态数据信息融合到一个共享的语义空间中的向量表示。一个良好的多模态表示应具备平滑性、时间和空间的一致性、稀疏性和自然聚类等特性。此外,良好的多模态表示应满足以下额外的理想特性:不同多模态输入对应的多模态表示的相似性应反映出各输入包含信息的相似性;即使某些模态数据缺失,仍然能够生成有效的多模态表示;通过多模态表示可以获取各模态数据的信息。

多模态表示可以建立在单模态表示的基础上,最简单常见的方法是将各模态的表示串联起来。随着多模态研究的发展,获得多模态表示的方法也得到了快速发展。研究者将多模态表示分为联合表示和协调表示。基于多模态深度表示中各模态之间的相互作用和获得的表示的语义信息,多模态表示可进一步分为模态共作用语义表示和模态约束语义表示。模态共作用语义表示类似于联合表示,它融合各个单模态的特征表示,以获得包含各模态语义信息的多模态表示。而模态约束语义表示与协调表示不同,它通过使用一个模态的单模态表示来约束其他模态的表示,使得其他模态的表示能够包含该模态的语义信息。

以数学语言解释,模态共作用语义表示可以表示为 Xm = f(X1, ..., Xn),其中Xm表示模态共作用语义表示,X1, ..., Xn表示各模态的表示,f表示通过神经网络模型构建的非线性映射。而模态约束语义表示可以表示为 f(WX1),其中W是通过训练学习得到的将X1映射到表示X2所在空间的映射矩阵。

1.2.1模态共作用语义表示

在深度学习中,神经网络已经取得了显著的成果,尤其在获取自然语言、视觉和听觉等单模态表示方面。在单模态表示的基础上,构建更深层的神经网络是获取模态共作用语义表示的常见方法。通常的做法是分别使用适当的神经网络学习各模态数据的表示,然后在网络结构上构建深层的神经网络,其输入为各模态的表示,通过这个构建的神经网络来融合各模态的语义信息,从而获得模态共作用语义表示。

在前向神经网络中,最典型的结构是编码器-解码器结构。编码器用于压缩和融合各模态的表示,生成模态共作用语义表示,而解码器根据这个共作用语义表示产生学习任务的预测结果。在深层的编码器-解码器结构中,各模态表示的神经网络通常是经过预训练得到的,而编码器-解码器结构的参数通过端到端的训练来生成,以获得更好的多模态表示性能。另一种简单的编码器是级联网络层,它将各模态的向量表示级联起来生成共作用语义表示,这是最基本的共作用语义表示生成方式。

另外,递归神经网络在生成共作用语义表示方面也常被使用,尤其适用于时间相关的学习任务,如视听语音识别和视听情感分析。在上层递归神经网络中,递归神经单元的隐状态融合了时间信息和各模态输入信息,形成共作用语义表示。改进的方法包括在底层网络的输出层添加LSTM,使得底层网络获得的单模态表示融合了各模态的时间信息。

在训练共作用语义表示模型时,可以对生成单模态表示的神经网络进行预训练或微调经典的网络结构。整个网络通常采用端到端的训练方式,这使得模型的预测结果能够反映生成的共作用语义表示是否能够充分包含各模态输入的信息。尽管共作用语义表示的训练过程相对简单且能够利用各输入包含的语义信息,甚至时间信息,但也存在训练参数过多等缺点。

1.2.2模态约束语义表示

模态约束语义表示与共作用语义表示不同,它的目标是将输入模态的表示映射到目标模态的语义空间中,以使映射结果与目标模态的语义相似性更高。模态约束语义表示并不融合各模态的信息用于预测等任务,而是通过在目标函数中添加衡量输入模态与目标模态相似性的约束条件,并使用端到端的训练方式来学习模型的参数和输入模态到目标模态表示空间的映射矩阵。

模态约束语义表示的思路简单且应用广泛,在不同的学习任务下,只需要确定输入模态和目标模态的形式,并选择适合的网络结构,在损失函数中添加目标模态对输入模态的约束项,就可以得到包含目标模态语义信息的输入模态约束语义表示。在图像识别问题中,可以将图像表示映射到名词空间,并使用铰链损失来约束模态约束语义表示的相似性,例如,要求包含车的图像的约束语义表示与名词"车"的损失值小于该图像与"马"的损失值。在图像标注问题中,可以使用LSTM学习句子的表示,并将图像的投影空间扩展到语句空间,使得图像在语义空间中的投影与标注语句的表示相似性最大。在跨媒体检索中,为了提高检索效率,可以构建文本语义空间而非语句空间,从而实现视频检索。

模态约束语义表示弱化了信息融合的必要性,采用模态间约束的方式来实现模态间的信息交流。它通常作为编码器出现在模型中,其输出可以由解码器生成学习任务的预测结果。在编码器完成训练后,它可以对训练数据中未出现的数据类型进行编码,并投影到目标模态的语义空间中。解码器也可以对该投影结果进行处理,并生成训练数据中未出现的预测结果。然而,寻找和探索适合的包含约束的目标函数是具有一定难度的,需要研究者结合各模态的特性和实验经验进行构建。模态共作用语义表示和模态约束语义表示如图示所示。

 二、模态传译

模态传译是指将一个模态中包含的信息传递和存储到另一个模态中,实现不同模态之间信息的流通和转化。主要研究方向涉及图片和语句、语句和声音、语言和语言等两个模态之间的传译。模态传译一直是研究者长期以来致力于解决的问题,许多多模态深度学习方法都涉及模态传译。为了精确实现模态传译,模型必须能够很好地理解源模态和目标模态的结构和信息。随着计算机视觉、自然语言处理和多模态数据集的发展,对于自然语言、图像、视频、声音等模态的理解程度不断提高,模态传译也受到越来越多的关注,并在各种研究任务中取得了进一步的发展。

根据传译结果的可预测性,模态传译可以分为有界传译和开放性传译,并对它们进行详细论述。有界传译主要涉及信息检索、图像识别和语音合成等问题,例如跨媒体检索、人脸识别和机器阅读等。在有界传译中,只需要在目标模态中找到与源模态元素对应的元素。例如,在模态传译的概念下,图像识别可以理解为将一张包含鸟的图像翻译成文字"鸟"。而开放性传译研究中,目标模态通常是句子,涉及机器翻译、图像标注语句生成和声音识别等任务。

在模态传译中,仍然存在着一些具有挑战性的问题,如传译结果评价机制的主观性、源模态信号中的信号重复问题,以及模态元素之间的多对一和一对多的关系等。图示中的有界传译和模态传译示意图展示了模态传译的概念,其中每个方块代表一个元素。

2.1有界传译 

有界传译是指将源模态中的一个元素或多个元素传译为目标模态集合中的某个元素或多个元素,目标元素之间没有前后序列关系。跨媒体检索和语音生成是有界传译的典型问题。

在跨媒体检索中,通过在多模态数据库中根据给定的查询模态类型来检索目标模态中包含查询信息的元素。多模态深度学习方法实现跨媒体检索的主要方式是学习查询模态元素和目标模态元素的表示,并使用神经网络或相似性评价函数来学习它们之间的相似性,从而实现检索。例如,通过构建通信自编码器,可以提升跨媒体检索的性能。为了改进跨媒体检索,研究人员在改进模态表示和更新相似性评价机制方面进行了新的研究。

语音生成涉及将模型学习到的输入模态信息转换为声音输出。其中,文字生成语音和图像生成声音是常见的研究方向。在文字生成语音中,通常使用堆叠的双向LSTM来处理文本特征向量,生成包含声音特征参数的平滑变化轨迹,并经过声码器转换为声音输出。在语音生成的研究中,也有一些方法利用递归神经网络作为传统文本语音生成模型的后置补偿器,以增强模型性能。另外,图像生成声音方面的研究利用卷积神经网络提取视频图像帧的图像信息,并使用长短记忆神经网络来拟合视频图像帧的连续运动信息,从而合成视频中物体运动的声音。

在模态传译中,仍然存在一些挑战性问题,如传译结果评价的主观性、源模态信号中的重复信息以及模态元素之间的多对一和一对多关系等。

2.2开放性传译

开放性传译是指将源模态中的信息传译为目标模态集合中的多个元素组成的有前后顺序关系的序列。在开放性传译的研究中,目标模态常为语句模态,涉及机器翻译、图像标注、图像问答、声音识别等任务。下面对其中几个典型问题进行简要介绍。

机器翻译是将一种语言中的句子翻译为另一种语言中的句子。递归神经网络是实现语句翻译的有效模型,通过构建编码器-解码器结构,利用双向LSTM对输入句子进行编码和解码,学习句子之间的对应关系。注意力机制的引入进一步改进了机器翻译的性能,通过编码器-解码器之间的注意力机制,可以实现更好的上下文理解和翻译结果生成。

图像标注是将图像转化为描述图像内容的语句。研究者提出了各种神经网络结构来推进图像标注任务的发展,如使用卷积神经网络提取图像特征,然后使用LSTM来生成描述语句。近期的研究还考虑了图像问答任务,即给定一个问题和一张图像,生成回答语句。这些任务的研究促进了对图像和语句之间关联的理解。

声音识别是将语音模态转换为语句模态,通常包括声学模型、语言模型和解码过程。传统的声音识别过程涉及解码问题,将输入的语音特征序列转换为字符序列。近期的研究采用编码器-解码器模型来实现声音识别,通过共同学习编码和解码过程,实现模态传译。

在模态传译的过程中,常常与解决特定学习任务的过程同步进行,模态传译可以看作是涉及模态间信息交流的机器学习任务的抽象概括。通过对有界传译和开放性传译的讨论,可以了解不同学习任务中常用的神经网络结构,并展示深度学习在模态传译方面的发展。

三、模态融合

多模态融合是指综合来自不同模态的信息以进行预测的过程。单个模态往往无法提供足够的有效信息来产生准确的预测结果,因此通过多模态融合可以补充信息、拓宽信息覆盖范围,提高预测结果的精度和模型的鲁棒性。根据多模态融合与各模态建模的先后关系,可以分为前融合、后融合和混合融合。

前融合是在模态建模之前,通过集成或组合来自所有模态的特征来完成特征层面的融合。这种方法将不同模态的特征进行组合,形成一个综合的特征表示,然后再将该综合特征输入到模型进行训练和预测。

后融合是分别对每种模态进行建模,然后将模型的输出或决策进行综合,以产生最终的决策结果。在后融合方法中,每个模态都有自己的模型进行训练和预测,最后将它们的输出进行综合,得到最终的预测结果。

混合融合是在特征级别和决策级别进行融合,综合了前融合和后融合的方法。在混合融合中,可以在特征层面对不同模态的特征进行融合,然后将融合后的特征输入到各自的模型中进行建模和预测;同时,也可以在决策层面将各个模态的预测结果进行综合。

在多模态深度学习中,神经网络结构可以直观地反映模态融合的方式。不同的多模态任务如视听语音识别、图像问答、视觉对话、手势识别、情感分析以及视频识别和描述等都可以利用多模态融合的方法来提升任务的性能。

总之,多模态融合通过综合不同模态的信息来增强预测的能力,根据不同的应用场景和任务需求,可以选择适合的前融合、后融合或混合融合策略,以实现更好的预测效果。

3.1前融合 

在前融合的实现过程中,首先需要提取各个输入模态的特征。这可以通过不同模态数据的特定方法进行,例如,对图像进行卷积神经网络处理,对文本进行词嵌入表示,对声音进行声谱图提取等。提取的特征通常会在维度上具有较高的维度。

接下来,将提取的特征合并到一个特征集合中。这个特征集合是由各个模态的特征组成的,并作为输入数据输入到一个模型中进行训练和预测。这个模型可以是任意的机器学习模型,例如神经网络、支持向量机等,用于学习模态之间的关系和进行预测。

前融合的特征集成和模态共作用语义表示之间的区别往往模糊不清。实际上,模态共作用语义表示也可以被视为前融合特征集成的结果。因此,前融合中模态表示的融合方式多种多样。常见的方式包括对各模态表示进行相同位置元素的相乘或相加、构建编码器-解码器结构以及使用LSTM神经网络进行信息整合。

例如,在情绪识别任务中,可以使用双峰自编码神经网络对提取的脑电图和眼睛信号进行特征集成和重构,然后将集成特征输入支持向量机进行情绪分类识别。在图像问答任务中,可以对卷积神经网络和LSTM神经网络学习到的图像和问题的向量表示进行对应元素的相乘。在视频描述任务中,可以在卷积神经网络上叠加LSTM神经网络,实现对视频中时间和空间信息的融合。

总的来说,前融合是一种简单的融合方式,通过将不同模态的特征进行合并,然后输入到一个模型中进行预测。它具有较低的计算复杂性,常常用作多模态学习任务的基准,并且可以通过不同的特征集成和模态共作用语义表示方式来实现模态的融合。

3.2后融合

在后融合的过程中,首先需要提取各个模态的特征。与前融合类似,可以使用不同的方法对每个模态的数据进行处理,提取相应的特征表示,例如对图像进行卷积神经网络处理,对文本进行词嵌入表示,对声音进行声谱图提取等。

然后,将提取的特征输入到对应的模型中进行训练和预测。每个模型都会根据输入的特征产生一个预测结果。这些预测结果可以是概率值、类别标签或连续值,具体取决于预测任务的性质。

最后,整合各个模型的预测结果,形成最终的预测结果。常见的整合方式包括平均、投票、加权和模型选择。例如,可以对各个模型的预测结果进行平均,取平均值作为最终预测结果。或者可以使用投票方式,选择获得最多票数的预测结果作为最终结果。另外,可以基于信道噪声和信号方差对预测结果进行加权,考虑模型的可靠性和置信度。还可以使用一些模型选择方法,如AdaBoost和神经网络,根据各个模型的性能和表现选择最佳的预测结果。

在视频识别和视频描述任务中,后融合过程也需要考虑视频的时间信息和空间信息的融合。例如,在视频识别任务中,可以将视频的时间信息和空间信息分别输入到全连接层,然后通过平均和支持向量机等方法对全连接层的结果进行融合,从而获得视频的最终预测结果。在视频描述任务中,可以使用LSTM神经网络融合卷积神经网络提取的与视频相关的单词信息,生成视频的描述语句。

总的来说,后融合是一种将各个模态的特征提取和模型预测分开进行的方法。它能够较好地处理数据的异步性,可以根据需要灵活地添加或删除模态。然而,后融合也存在一些缺点,如未考虑特征层面的模态相关性和实现的难度较高。因此,在选择融合方式时需要根据具体任务和数据特点进行权衡和选择。

3.3混合融合

混合融合是一种将前融合和后融合相结合的方法,综合了它们各自的优点,但也增加了模型的结构复杂度和训练难度。

在混合融合的研究中,神经网络得到了广泛应用,因为神经网络具有多样性和灵活性。下面介绍一些在不同任务中应用混合融合的方法。

在视频和声音信号的混合融合中,Wu等人构建了仅基于视频信号和仅基于声音信号的听声辨人模型,分别产生模型的预测结果。然后,通过加权的方式将视频和声音模态的预测结果进行整合,从而获得最终的识别结果。

在图像问答任务中,研究者使用递归神经网络和卷积神经网络分别学习问题语句和图像的信息。然后,通过注意力机制实现问题语句信息和图像信息的融合,将注意力权重应用于特征表示中,以强调对问题和图像有关的重要信息。

在手势识别任务中,Neverova等人使用卷积神经网络对手势视频中左手和右手的时间信息和空间信息进行学习和融合。他们还使用并行的卷积神经网络提取身体姿势的图像信息和声音信息。最后,他们使用全连接神经网络将所有信息进行融合,并在输出层生成手势识别结果。

这些方法都是通过混合融合的方式将不同模态的信息整合到一个模型中,以提高预测的精度和性能。然而,混合融合也面临一些挑战,如模型结构复杂度和训练难度的增加,以及模态之间的关联性建模等问题。因此,在应用混合融合时需要根据具体任务和数据特点进行合理的选择和权衡。

四、模态对齐

多模态对齐是指辨别不同模态元素之间的关系。在多模态深度学习中,可以使用注意力对齐和语义对齐来实现模态对齐。

注意力对齐综合考虑输入模态中各元素与目标模态中某个元素之间的关系。例如,在机器翻译任务中,注意力机制可以将源语言句子中的每个单词与目标语言句子中的对应单词进行对齐,从而捕捉到它们之间的关联性。在图像标注任务中,注意力机制可以将图像中的不同区域与标注语句中相应的单词或短语进行对齐。

语义对齐则是根据输入模态和目标模态中元素之间的语义相似性来进行对齐。一种常见的做法是构建语义对齐数据集,在这个数据集上训练模型,使得模型能够自然地学会模态之间的语义对应关系。通过语义对齐,可以捕捉到模态元素之间的语义关联,实现模态对齐。

注意力对齐和语义对齐这两种方式在模态对齐中都取得了较好的效果。注意力对齐更加灵活,能够考虑模态元素之间的长期依赖关系,适用于处理具有长距离依赖的任务。而语义对齐则更加注重模态元素的语义相似性,通过构建语义对齐数据集进行训练,使模型能够学习到模态元素之间的语义对应关系。

多模态对齐的目的是为了实现模态之间的有效信息传递和融合,从而提高多模态任务的性能和效果。不同的任务和应用领域可能会选择不同的对齐方式来适应特定的需求。

4.1注意力对齐

在一个深度学习模型中应用注意力对齐,其主要功能是学习输出中某个元素与输入中各元素的对齐概率。注意力对齐在多模态学习任务中被广泛应用,例如机器翻译、图像标注、语音识别等需要进行模态之间的翻译和对齐的任务中,并且在这些领域取得了良好的表现。在深度学习模型中引入注意力机制常常能提升模型的性能。

以机器翻译中的软注意力模型为例,说明注意力模型的构造过程。在软注意力模型中,采用了解码器-编码器结构来实现注意力对齐和机器翻译。编码器阶段使用BRNN(双向循环神经网络)对输入语句中的单词进行语义特征提取,得到隐变量集合h={hj}。在解码器端,通过RNN和多层神经网络来求解每个时刻i输出单词yi的条件后验概率的模型参数。引入注意力机制建立注意力对齐模型,该模型由一个由两层神经元构成的神经网络构建,输出表示为ei= a(si-1, hj) = vT tanh(Wasi-1 + Uahj),其中va、Wa和Ua为权值矩阵。注意力对齐模型能够计算输入语句中每个单词的表示与输出语句中对应的预测目标单词的相关性强弱的能量值ei,并通过软最大函数计算得到对齐权值aij。利用注意力模型产生的权值和编码器产生的隐变量集合,可以计算解码器各输出时刻单词的上下文向量ci和条件后验概率。在这个软注意力模型中,每个单词都以对应的概率对输出单词进行对齐,实现了模态之间的对齐。

除了软注意力模型,还有硬注意力模型。硬注意力模型常用于图片文字标注中,它会选取某个向量与目标句子对应的单词对齐,而其他向量与目标句子单词对齐的概率则硬性地置零。在注意力模型的发展过程中,还涌现出了全局注意力模型、局部注意力模型、静态注意力模型和动态注意力模型等不同类型的模型。

总的来说,注意力对齐在深度学习模型中起到了重要的作用,能够帮助模型学习输入与输出之间的对齐关系,从而提高多模态任务的性能。注意力模型的构造过程较为复杂,但它为多模态学习任务提供了一种有效的方式来处理模态之间的对齐问题。

4.2语义对齐

语义对齐是一种直接赋予模型对齐能力的对齐方式,其主要实现方式是通过处理带有标签的数据集并生成语义对齐数据集,然后使用深度学习模型来学习语义对齐数据集中的对齐信息。在视觉模态和语句模态对齐方面,随着带有对齐标签的视觉和语句模态数据集规模的迅速增加,基于深度学习的有监督语义对齐算法取得了重要进展。

在图像标注任务中,Karpathy等人提出了一种神经网络模型(如图8所示),通过包含语义信息的目标函数来训练数据集,并利用训练好的神经网络和新构建的链式结构的马尔可夫随机场动态地最小化能量函数,寻找最佳的图像和语句或单词对之间的语义对齐关系,并构建语义对齐的数据集。这个过程中,首先使用RCNN(区域卷积神经网络)对图像进行区域划分,选取最佳的19个局部区域和整个图像(共20个图像),然后使用CNN对这20个图像分别进行处理,得到图像特征表示;同时,使用BRNN(双向循环神经网络)对描述语句中的单词进行语义特征提取,其维度与图像表示的维度相同。通过计算每个图像区域和每个单词之间的对齐分数,从中选择每个单词关于各图像区域的最大对齐分数和每个图像区域关于各单词的最大对齐分数,进而构造目标函数来训练CNN和BRNN模型。然后,沿着图像标注句子构建一个链式结构的马尔可夫随机场,并最小化能量函数,输出对齐的图像区域和语句片段,并将其存储在数据集中。

除此之外,研究者还尝试了其他视觉模态和语句模态对齐的方法。例如,Zhu等人通过训练卷积神经网络来评估电影场景和剧本段落的相似性;Mao等人使用卷积神经网络视觉模型和LSTM(长短期记忆网络)语言模型来评估图像中实例和其指称表达之间的匹配程度;Yu等人在此基础上进一步添加图像实例的外形信息和指称表达所包含的上下文信息,以减少误差评估。

总的来说,语义对齐是一种能直接赋予模型对齐能力的方式,通过处理带有标签的数据集并利用深度学习模型来学习语义对齐数据集中的对齐信息。目前,注意力对齐和语义对齐是两种常见的对齐方式。在结构上,注意力对齐模型相对简单且形式灵活;在训练过程中,注意力对齐模型的超参数和模型参数相对较少,训练难度较低;在预测结果方面,注意力对齐能够更好地考虑模态元素之间的长期依赖关系。而语义对齐能够产生语义对齐数据集,并具有直观的评估结果。在实际应用中,由于注意力对齐具有诸多优势和良好的性能表现,它更频繁地被应用于各种学习任务中。

五、实际多模态系统

多模态深度学习在语音识别和生成、图像识别、事件监测、情感分析和跨媒体检索等方面都有广泛的应用。它能够赋予机器理解和融合图像、语言、文字、视频等模态所包含信息的能力,具有巨大的商业价值。因此,许多商业公司都在进行多模态深度学习相关的产品开发,使得多模态深度学习走进了实际生活。

谷歌公司是全球最大的搜索引擎公司,同时也引领着人工智能的发展。其旗下的DeepMind是人工智能领域的明星之一。谷歌开发了WaveNet,一种新型的深度神经网络,能够根据文本生成更好、更逼真的语音。改进版的WaveNet已经应用在谷歌智能助理中,为美式英语、日语和印度尼西亚语生成逼真的声音。

谷歌翻译提供了80种语言之间的即时翻译,支持子词、句子和网页的翻译。谷歌翻译手机应用还支持通过相机拍摄进行翻译,以及支持11种手写语言的翻译,实现了图像和文字、语言和语言之间的交流互通。

谷歌Lens是一款基于图像识别和光学字符识别技术的人工智能应用,能够让机器学会“看图说话”,实现图像模态和文字模态信息之间的转换,也能进行信息检索。例如,它可以识别图像中的实例并输出实例的名称,扫描公司或商店的外观并提供详细信息和评价。

谷歌Duplex实现了人工智能与人类自然语言流畅交流的能力。例如,它可以代表用户给饭馆或理发店打电话,帮助用户预订时间,并且回答带有“嗯哼”类情感助词的问题,使得人工智能更加“像人”。

谷歌Photos利用人工智能技术分析照片内容,并自动为照片添加标签。用户可以使用内置的编辑工具轻松修复照片,还可以利用人工智能自动创建拼贴、动画、电影、风格化图片等。

谷歌Allo是一款人工智能短信应用,它能够根据用户的历史输入了解用户的对话习惯,并根据接收到的图像或文字短信自动给出回复建议。

谷歌Assistant是一款集成了谷歌Lens、WaveNet、谷歌翻译等前沿机器学习技术的强大人工智能助手。它具备领先的自然语言处理能力,可以与用户进行对话、文字交流等信息交互,并理解用户的指令调用其他软件或硬件。它还可以理解用户输入的图像或视频,识别并分析其中的各种信息,帮助用户理解视频内容。

Facebook是一家全球领先的社交网络服务公司,在社交软件上应用和发展了机器学习技术。在Facebook中,机器学习主要用于使网络社交变得更加有趣、方便,提升用户体验。例如,视频风格渲染和图像风格渲染可以将视频或图片的风格艺术化为其他艺术风格,文字翻译能够将朋友圈中的文字内容和评论内容翻译为用户设置的语言,自动给视频添加隐藏式字幕,帮助用户理解视频信息,为盲人生成图像说明,使得他们能够浏览图像,自动识别人脸并标注其名称,自动检测并删除不良内容,减少社交网络中的不良信息,构建健康和谐的网络环境,以及根据用户浏览习惯自动推送感兴趣的图像或视频。

特斯拉是一家电动车及能源公司,其自动驾驶技术是一个典型的多模态应用系统。自动驾驶技术通过电脑系统接收视觉信息、雷达信息、全球定位系统的位置信息、语音信息、自然语言信息等多模态输入。它会自动识别视觉信息中的车道标志线、行人和汽车,语音信息和自然语言信息中的驾驶人命令,雷达信息中的车辆、行人和障碍物,并综合各种信息确定当前汽车的行驶状态,决定行驶方向和速度。

除了谷歌和Facebook,苹果、微软、亚马逊、腾讯、百度、阿里巴巴等公司也应用了多种机器学习算法构建了类似的多模态应用系统。例如,苹果、微软、亚马逊分别拥有人工智能助手Siri、Cortana和Alexa;腾讯在图像识别和标注方面进行了应用;阿里巴巴开发了商品推荐系统;百度致力于自动驾驶技术的研发。

此外,多模态系统还应用于导航、生理病变研究、环境监测、天气预报、安全监控等领域。例如,生物医学图像识别中的CT(计算机断层扫描)技术;利用图像识别技术对航空遥感和卫星遥感图像进行加工,提取有用信息,进行天气预报和环境监测;采用图像识别技术实现人脸识别、指纹识别、车牌识别,提高社会安全水平。

多模态深度学习在各个领域都展现出巨大的潜力和商业价值,其应用前景广阔,对人们的生活和工作产生了积极的影响。

六、国内外多模态深度学习公用数据集

多模态深度学习作为一个有着极大发展潜力的深度学习的研究方向,大量的研究机构在对其现有的模型不断地进行创新和探索,完善数据集,提高多模态深度学习模型运算速度,提高输出预测准确率。表 2汇总了各多模态深度学习问题和其相应的数据集,以及基于该问题和相应的数据库学习 结果。

 

七、多模态深度学习的发展方向

a)神经网络的完备数学描述和理论体系是一个复杂而庞大的研究领域。神经网络的数学描述主要基于神经元之间的连接和激活函数的作用。典型的神经网络包括输入层、隐藏层和输出层,每个神经元接收来自前一层神经元的输入,并通过激活函数将其转换为输出。通过不同层之间的连接权重,神经网络能够学习和表示复杂的非线性关系。

理论体系包括神经网络的结构和参数优化方法。在神经网络的结构方面,包括不同层的选择、神经元的数量和连接方式等。参数优化方法涉及如何通过训练数据调整神经网络的连接权重和偏置,以使其能够更好地拟合输入数据和产生准确的输出预测。常见的优化算法包括梯度下降法、反向传播算法以及各种变种和优化技术。

b)构建大型多模态数据库是进行多模态深度学习的重要一步。数据库中所包含的数据类型和数量对于模型的训练和性能起着关键作用。好的数据库应该具有丰富的多模态数据,涵盖多个领域和应用场景,并且数据应该具有高质量、高标注准确度和广泛的覆盖范围。同时,数据库的规模和多样性也会对模型的泛化能力和应用范围产生影响。

c)探索更精细的模态数据特征表示是为了更好地理解和利用多模态数据中的信息。不同模态的数据具有不同的特点和表达方式,因此需要研究如何对每个模态进行有效的特征提取和表示。这包括使用传统的特征提取方法,如手工设计的特征和传统的机器学习方法,以及探索使用深度学习方法自动学习特征表示的技术,如卷积神经网络和循环神经网络等。

d)参数量化分析是为了降低多模态深度学习模型的复杂度和提高效率。多模态深度学习模型通常具有大量的参数,这对于模型的存储和计算资源要求非常高。因此,研究者需要探索更简洁的参数表示形式,如稀疏表示、低秩表示等,并开发高效的训练算法来减少模型的参数数量和计算复杂度。

e)赋予机器模态泛化能力是为了使多模态深度学习模型能够在未见模态上进行预测和推广。现有的多模态学习方法通常是在已有的模态上进行训练和学习,但当面对未见的模态时,模型往往无法有效地处理。因此,研究者需要探索如何使多模态模型具有更好的泛化能力,能够从已有模态的知识中推广到未见模态的数据上。

f)多模态学习中的神经网络结构和模态表示学习缺乏统一的标准和准则,需要进一步的研究和探索。目前,研究者通过试验和实践选择和组合不同的神经网络结构和模态表示学习方法,但缺乏一个统一的标准来评估和选择最佳的组合形式。因此,需要更多的研究来定义模态学习的标准和指导原则,以便更好地组合和利用不同的模态信息。

g)多模态深度学习的优化问题通常是非凸优化问题,这导致了训练过程中的鞍点问题和局部最优问题。目前的深度学习优化算法仍然无法完全避免这些问题,使得研究者无法确定是优化过程未找到全局最优解还是模态表示和组合存在问题导致预测结果不佳。因此,研究者需要提出更有效的优化算法来解决非凸优化问题。

 

  • 0
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值