读《Deep Multimodal Representation Learning: A Survey》

69 篇文章 0 订阅
6 篇文章 4 订阅

摘要

多模态表示学习旨在缩小不同模态之间的异质性差距,利用普遍存在的多模态数据。
基于深度学习的多模态表示学习具有强大的多层次抽象表示能力。

为了便于关于如何缩小异质性差距的讨论,根据不同模式集成的底层结构,本综述将深度多模态表示学习方法分为三个框架:联合表示协调表示编码器-解码器

此外,还回顾了这一领域的一些典型模型。
本文强调了新技术的关键问题,如编码解码器模型、生成对抗网络和多模态表示学习的注意机制。
对于每个框架或模型,本文讨论其基本结构、学习目标、应用场景、关键问题、优缺点。

1.引言

在表示学习领域,“模态”指的是编码信息的特定方式或机制。因此,文本、图像、视频、声音和图等也可以是模态,而涉及几种模式的表示学习任务将被描述为多模态。

由于多模态数据从不同的角度描述一个对象,通常在内容上是互补或补充的,因此它们比单峰数据信息更丰富。
例如,视觉模式提供了关于嘴唇运动和口腔发音的信息,包括开放和闭合,从而有助于提高语音识别性能。因此,利用多种模式所提供的综合语义是有价值的。(研究意义)

由于来自不同模式的特征向量最初位于不相等的子空间中,与相似语义相关联的向量表示将是完全不同的。这种现象被称为异质性差距[4]。(就是多模态间特征值及其规模的差异吧?)
解决这个问题的一种流行方法是将异构特征投影到一个公共子空间中,其中具有相似语义的多模态数据将由相似的向量表示[5]。(就是说一种归一化的映射,将所有模态的数据融合在一起,通过“相似语义”对齐吧大概)
因此,多模态表示学习的主要目标是缩小联合语义子空间中的分布差距,同时保持特定模态的语义的完整

多模态表示学习也产生了应用。例如,通过利用多模式的融合特征,可以在跨媒体分析任务中提高性能,如视频分类[6]、事件检测[7]、[8]和情绪分析[9]、[10]。
此外,通过利用跨模态相似性或跨模态相关性,可以使用句子作为输入来检索图像,反之亦然,这是一个被称为跨模态检索[11]的任务。

一般来说,基于多模态数据的机器学习任务包括三个必要的步骤:特定于模态的特征提取、旨在在公共子空间中整合来自不同模态的不同特征的多模态表示学习,以及分类或聚类等推理步骤。
本文主要关注第二步,即深度学习场景中的多模态表示学习

2.深度多模态表示学习框架

根据图中所示的底层结构,将深度多模态表示方法分为三种不同类型的框架:
(i)联合表示,旨在将单模态表示一起投射到一个共享的语义子空间,以便融合多模态特征;(这一种是最常见的吧,就是多模态融合啊)
(ii)协调表示,包括跨模态相似模型和规范相关分析,它寻求学习协调子空间中的每个模态的分离但约束表示;
(iii)编码器-解码器模型,努力学习用于将一种模态映射到另一种模态的中间表示。(这个其实和第一个也差不多,都是统一空间)

A. 特定模态表示

尽管各种不同的多模态表示学习模型可能共享相似的架构,但用于提取特定模态特征的基本组件彼此之间可能会有很大的不同。
它们可以集成到多模态学习模型中,并与其他组件一起进行训练。

B.联合表示

整合不同类型的特征来提高机器学习方法性能的策略一直被研究使用。
为了弥合不同模态的异质性差距,联合表示的目的是将单峰表示投射到一个共享的语义子空间中,在那里多模态特征可以融合[18]。
在每个模态通过单个神经网络编码后,它们都将被映射到一个共享的子空间,在那里,模态共享的概念将被提取并融合到一个单一的向量中。
在这里插入图片描述
加法融合
乘法融合
在这里插入图片描述

用于处理数据缺失的训练技巧也有助于获得模态不变属性,这意味着模态之间的统计分布的差异被最小化,或者换句话说,特征向量包含最小的模态特定特征。(看下文好像是在说一些对齐方面的处理?)

学习到的向量不能保证会融合互补的语义,形成不同的模式,因为联合表示倾向于保留跨模态的共享语义,而忽略了特定于模态的信息。
一个解决方案[74]是在优化目标中添加额外的正则化项。例如,多模态自动编码器[1]中使用的重构损失,作为保持模态独立性发挥作用。
[21]对网络权值进行跟踪范数正则化,以揭示多模态特征的隐藏相关性和多样性。直观地说,如果一对特征高度相关,那么用于融合它们的权重应该是相似的,这样它们对融合表示的贡献将大致相等。因此,跟踪范数正则化的目的是发现模态之间的关系,并相应地调整融合层的权重。他们在视频分类任务中的实验表明,这个正则化项有助于提高性能。

优点:

  1. 可以方便地融合多模式,不需要明确地协调模式
  2. 共享的公共子空间倾向于是模态不变的,这有助于将知识从一种模态转移到另一种[1],[73]。

缺点:
不能用来推断每个模态的分离表示。

C. 协调表示

协调表示框架是在某些约束[18]下学习每个模态的分离但协调的表示。
由于在不同模式中包含的信息是不平等的,学习分离的表示有助于坚持独家和有用的模式特异性特征[31]。
通常,在约束类型的条件下,协调表示方法可以分为两组,基于跨模态相似性和基于跨模态相关性。
在这里插入图片描述
基于跨模态相似性的方法旨在学习一个共同的子空间,其中向量的距离可以直接测量[75],
而基于跨模态相关的方法的目的是学习一个共享的子空间,从而使不同模式的表示集的相关性最大化[5]。(那和联合表示的区别倒不是体现在谁是学习共享空间上了,而是说联合分布把多模态都映射到统一空间后聚焦于其中有相似相关的部分,而协调分布是不断扩大模态间的公共子空间吗?)
这里主讲前者,后者留到后面

跨模态相似度方法在相似度度量的约束下学习协调表示。该模型的学习目标是保持模态间和模态内相似结构,缩小类内矩扩大类间距。
在这里插入图片描述(有点像三元损失,只不过不是用的欧氏距离;用到欧氏距离的优化目标下面也有列)
(不过还是有些疑问,凭啥可以度量模态间的相似度,就靠语义去标注说这一个词和这一个图像是相似相关的吗?)
除了学习模态间相似性度量外,跨模态应用还应保持模态内相似性结构。
一种广泛使用的策略[30],[79]是对学习特征进行分类,使它们在每个模态中都具有鉴别性。
另一种方法是在每个视图中保持邻域结构。
另外[80]提出通过协调表示模型来学习图像-文本嵌入,该模型将交叉视图排序约束与视图损失函数内邻域结构保存约束相结合。

与其他框架相比,协调表示倾向于坚持每个模态中唯一且有用的模态特定特征[31](那就是说和联合表示注重同一性相比,它更侧重于特殊性呗)

优点:
由于不同的模态被编码在分离的网络中,每个模态都可以单独推断出来(为啥还要单独推断出来?)。这一有利于跨模态迁移学习,旨在跨不同的模式或跨领域转移知识。
缺点:
大多数情况下,很难学习具有两种以上模式的表示。

D.编解码器

将一种模态映射到另一种模态 编码器将源模态映射到一个潜在的向量v中,然后,基于向量v,解码器将生成一个新的目标模态样本。
在这里插入图片描述
表面上,编码解码器模型学习到的潜在向量似乎只与源模式有关,但实际上,它与源模式和目标模式都密切相关。由于纠错信号的流动方向是从解码器到编码器的,因此编码器在训练过程中由解码器引导。随后,生成的表示法倾向于从这两种模式中捕获共享的语义。(突然感觉编解码器也有点GAN的意思吗?造一个拟合目标分布的数据?话说解码的过程就是类似于将编码出的特征映射到其他空间吧那其实和前两种方法大差不差呗)

优点:
能够在源模态表示上生成目标模态条件新的样本。
缺点:
每个编码器-解码器只能编码其中一种模式。此外,应该考虑到设计生成器的复杂性,因为生成合理目标的技术仍在其开发中。

3.典型模型

A. 概率图(GRAPHICAL)模型

包括深度置信网络(DBN)[97]和深度玻尔兹曼机(DBM)[98]。前者是由定向信念网络和RBM层组成的部分有向模型,后者是完全无向模型。

优点:

  1. 可以以无监督的方式进行训练,允许使用未标记的数据
  2. 来自于它们的生成性质使得可以在其他的[96]上生成缺失的模态条件成为可能

缺点:
相当高的计算成本[102]

B. 多模态自编码器

无监督,不需要标签(真的?之前跑的几个有自编码器的代码都需要标签啊?)[103]
编码器将输入转换为一个压缩的隐藏向量,也称为潜在表示,而解码器则努力基于这种潜在表示重构输入,从而使重构损失最小化。

使用自动编码器来提取中间特征的模型可以分成两个阶段。 第一步,在无监督学习的基础上,通过分离的自动编码器提取特定于模态的特征。
然后,将施加一个特定的监督学习程序来捕获跨模态相关性。

优点:

  1. 学习到的潜在表示可以保留输入数据的主要语义信息。从生成模型的角度来看,由于输入可以从这种潜在的表示中重构,因此可以相信生成输入的关键因素已经被编码。
  2. 可以通过无监督的方式进行训练,而不需要标签。

缺点:
由于该模型主要是为通用目的而设计的,为了提高其在特定任务中的性能,需要涉及额外的约束或监督学习过程。

C. 深度规范相关分析(CCA)

是一种最初用于测量一对集合之间的相关性的方法。在多模态表示学习场景中,给定两组数据,每对都是包含两种模式的数据样本,CCA的目标是找到两组基向量用于将多模态数据映射到共享的d维子空间,使得这样投影表示之间的相关性最大化[5],[110]。
如果每个集合的均值为零,目标函数如下
在这里插入图片描述
基本的CCA仅限于建模线性关系,一个非线性扩展是核CCA[111],它在应用CCA方法之前将数据转换为高维希尔伯特空间。但是可伸缩性[112]较差,因为它的封闭形式的解决方案需要计算高时间复杂度和内存消耗;而且效率很差,这是由于它在转换一个看不见的实例[117]时需要访问所有的训练集。

通常,最大化相关目标侧重于学习共享的语义信息,但往往忽略特定模态的知识。为了解决这个问题,应该考虑额外的正则化术语。

优点:
可以以无监督的方式进行训练
缺点:
计算复杂度较高,这可能会限制其在数据大小上的可伸缩性。

D. 生成对抗网络

作为一种无监督的学习方法(你也无监督?),它可以用于学习数据表示,而不涉及标签,从而显著降低了对人工注释的依赖性。
此外,作为一种生成方法,它可以根据训练数据的分布生成高质量的新样本。

与经典的表示学习方法相比,GANs的一个明显区别是,数据表示的学习过程并不简单。这是一种隐含的范式。与传统的无监督表示方法不同,如直接学习从数据到潜在变量的映射的自动编码器,GANs学习从潜在变量到数据样本的反向映射。具体来说,生成器将一个随机向量映射到一个独特的样本中。因此,这个随机信号是一个对应于生成的数据的表示。

缺点:

  1. 由于这样的随机表示与有意义的语义没有关联,很难解释
  2. 缺乏从数据到潜在空间的直接映射,这对检索和分类等传统任务中的表示学习至关重要
  3. 尽管理论上存在一个独特的全局最优,但训练一个可能遭受训练不稳定,“崩溃”或无法收敛[147]的全局最优系统具有挑战性。虽然已经提出了[147]-[150]的一些改进,但是稳定GANs训练的方法仍然是一个有待解决的问题。

优点:

  1. 可以通过无监督学习进行训练,这将显著降低对手动注释的依赖性。
  2. 能够根据训练数据的分布生成高质量的新样本。

E. 注意力机制

注意机制允许模型专注于特征图的特定区域或特征序列的特定时间步长。通过注意机制,不仅可以提高性能,而且还可以看到更好的特征表示的可解释性。这种机制模仿了人类提取最具鉴别性的信息进行识别的能力。注意决策过程不是同时使用所有的信息,注意决策过程倾向于选择性地集中在场景中有用的部分[151]。

优点:

  1. 能够选择显著的和有鉴别性的局部特征,这不仅可以提高多模态表示的性能,而且具有更好的可解释性。
  2. 通过选择突出的线索,该技术还可以帮助解决噪声等问题,并帮助将互补语义融合成多模态表示。
  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
深度多模态学习是一种研究方法,它将多个模态(例如语音、图像、视频等)的信息进行融合和学习。近年来,深度多模态学习取得了许多重要进展和趋势。 在多模态学习中,深度神经网络在特征提取和模态融合方面发挥了重要作用。通过深度网络的层次处理,可以有效地从原始模态数据中提取出高层次的语义特征。同时,多模态数据的融合也成为研究热点。不同模态之间的关联信息可以通过深度多模态网络进行学习和利用,提高了模型的性能。 近年来,深度多模态学习在不同领域取得了一系列重要的研究成果。在自然语言处理领域,多模态问答系统、图像字幕生成和视觉问答等任务得到了广泛研究。在计算机视觉领域,通过融合多个模态的信息,如图像和语音,可以实现更准确的物体识别和行为分析。在语音识别和语音合成领域,多模态学习也被用来提高语音处理的性能。 同时,一些趋势也值得关注。首先,多模态学习的应用正在不断扩展到更多领域,如医疗、机器人和智能交通等。其次,深度多模态学习和其他深度学习技术的结合也被广泛研究,以提高模型的性能和泛化能力。此外,深度多模态学习在大规模数据和计算资源方面的需求也值得关注。 总之,深度多模态学习是一个充满潜力和挑战的研究方向。随着技术的不断发展和应用需求的增加,我们有理由相信,深度多模态学习将在未来发挥更重要的作用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值