2020-Low Rank Fusion based Transformers for Multimodal Sequences

摘要

        我们每个人的感官都以一种协调的方式来表达我们的情感意图。在这项工作中,我们尝试建模特定于模态的感官信号,以关注我们潜在的多模态情感意图,反之亦然,通过低阶多模态融合和多模态变压器表达。模态之间的多模态融合的低秩分解有助于表示近似相乘的潜在信号相互作用。在(Tsai et al ., 2019)和(Liu et al ., 2018)的工作的激励下,我们提出了基于变压器的交叉融合架构,没有对模型进行任何过度参数化。低秩融合有助于表征潜在的信号相互作用,而模态特异性关注有助于关注信号的相关部分。我们对CMU-MOSEI、CMU-MOSI和IEMOCAP数据集上的多模态情绪和情感识别结果提出了两种方法,并表明我们的模型具有更少的参数,训练速度更快,并且与许多更大的基于融合的架构相比较。

1 介绍

        情绪理解领域涉及对主观因素的计算研究,如对其他物体或人的情绪、意见、态度和情绪。主观性是情感理解的固有部分,它来自于自然现象的语境性。定义度量并将度量的客观评估从主观信号中分离出来,使该领域具有挑战性和令人兴奋。情感和情感以不同的表达速率和粒度依附于语言、音频和视觉形式,有助于获得关于各种实体(如电影、产品、人或组织)的社会、心理和行为见解。情感被定义为对重大事件的短暂有机同步评价,而情感被认为是对物体或人的更持久的信念和倾向(Scherer, 1984)。情感理解领域有着丰富的文献和许多有趣的理解模型(Plutchik, 2001;埃克曼,2009;Posner et al, 2005)。最近关于基于张量的多模态融合的研究探索了正则化张量表示(Liang et al ., 2019)和多项式张量池化(Hou et al .,2019)。

        在这项工作中,我们结合了(Tsai et al ., 2019)和(Liu et al ., 2018)的想法,并探索了基于变压器(Vaswani et al ., 2017)的模型对对准和未对准信号的使用,而没有通过使用多个模态特定的变压器对模型进行广泛的过度参数化。我们利用基于低秩矩阵分解(LMF)的融合方法来表示特定模态信息的多模态融合。我们的主要贡献可以概括如下:

    •最近提出的多模态变压器(MulT)架构(Tsai et al ., 2019)使用至少9个基于Transformer的模型来跨模态表示语言、音频和视觉模态(3个具有自关注的并联模态特定标准变压器和6个具有跨模态关注的并联双模态变压器)。这些模型利用了几个并联的单峰和双峰变压器,并且没有在架构中的任何一个变压器模型中捕获完整的三峰信号相互作用。相比之下,我们的方法使用更少的基于Transformer的模型和更少的并行模型来实现相同的多模态表示。

    •我们着眼于将多模态融合应用到变压器架构中的两种方法。在一种方法(llf - mult)中,融合的多模态信号利用三个模态的注意力来增强。在另一种方法(基于融合的cm - attn)中,单个模态通过融合信号并行增强。

        使用未对齐序列进行建模的能力是有利的,因为我们依赖于基于学习的方法,而不是使用强制信号同步(需要额外的定时信息)的方法来模仿人类多模态语言表达的协调性质。LMF方法旨在通过近似张量融合方法捕获模态之间的所有单峰、双峰和三峰相互作用。

        我们在CMUMOSI、CMU-MOSEI和IEMOCAP数据集上开发和测试了我们的方法,详见(Tsai et al ., 2019)。CMU多模态意见情绪和情绪强度(CMU- mosei) (Zadeh等人,2018)是YouTube视频片段的多模态情绪分析和情绪识别的大型数据集。该数据集包含来自1000多个在线YouTube演讲者的23,500多个句子发音视频。该数据集有几个有趣的特性,比如性别平衡,包含不同性格特征的人的各种主题和独白视频。这些视频都是人工转录的,并有适当的标点符号。由于数据集包含说话人自然的视听表达,它为情感和情绪理解的研究提供了一个很好的测试平台。视频被切割成连续的片段,片段上标注了7点尺度的情绪标签和4点尺度的情绪类别,对应于Ekman的6个基本情绪类别(Ekman, 2002)。片段中的固执表达包含视觉线索、信号的音频变化以及文本表达,在情感和情感分类的模态中表现出各种微妙和非明显的相互作用。CMUMOSI (Zadeh等人,2016)是带有情感注释的YouTube视频的较小数据集(2199个片段)。IEMOCAP (Busso et al, 2008)数据集由10K个带有情绪和情感标签的视频组成。我们使用与(Tsai et al ., 2019)相同的设置来处理4种情绪(快乐、悲伤、愤怒、中性)。在图1中,我们通过显示参与单峰序列不同部分的融合信号表示来说明我们的想法。由于对模态不同部分的注意力计算充当了多模态序列对齐的代理,因此不需要对信号进行对齐。通过低秩矩阵分解(LMF)计算融合信号。我们提出的另一个模型使用交换配置,其中单个模态并行地处理融合信号。

2 模型说明

在本节中,我们描述了我们的模型和低秩融合模态的方法,用于多模态变压器与跨模态的关注。

2.1 低秩融合

        LMF是一种张量融合方法,可以对单峰、双峰和三峰相互作用进行建模,而无需使用来自特定模态嵌入的昂贵的三倍笛卡尔积(Zadeh等人,2017)。相反,该方法直接利用单峰特征和权重来近似完整的多张量外积操作。这种低秩矩阵分解操作很容易扩展到交互空间(特征空间或模态数量)非常大的问题。我们使用(Liu et al ., 2018)中描述的方法。与之前的工作类似,我们使用LSTM压缩单个模态的时间序列信息(Hochreiter和Schmidhuber, 1997),并提取用于模态特定融合的隐藏状态上下文向量。我们在图2中描述了LMF方法,类似于(Liu et al ., 2018)中的说明。这显示了如何将单峰张量序列附加1,然后将外部乘积等效于明确捕获单峰和多峰交互信息的张量表示(图2的右上方)。如图所示,压缩表示(h)是使用低秩模态特定因子和附加模态表示的批量矩阵乘法计算的。所有的低秩积进一步相乘得到融合向量。

2.2 跨模态Transformer

        我们以Transformers (Vaswani et al ., 2017)为基础进行序列编码,并利用(Tsai et al ., 2019)的思想进行多个跨模态注意块,然后进行自注意编码,对多模态序列进行分类。虽然早期的工作侧重于一种模态对另一种模态的潜在适应,但我们关注的是潜在多模态信号本身对单个模态的单头跨模态注意的适应。这有助于我们通过对每个模态使用所有模态到模态的跨模态注意组合来减少模型的过度参数化。相反,我们只对每个模态和融合信号表示使用线性数量的跨模态注意力。我们在LMF操作之后添加了时间卷积,以确保输入序列对相邻元素有足够的感知。我们在图3和图4中展示了我们提出的两个模型的整体架构。在图3中,我们展示了经过时间卷积后的融合多模态信号表示,通过跨模态变压器注意来丰富各个模态。在图4中,我们展示了具有最少数量Transformer层的架构,其中各个模态参与融合卷积多模态信号。

Table 1:在CMU-MOSI数据集上对对齐和未对齐的多模态序列进行多模态情感分析的性能结果。

Table 2:基于对齐和未对齐多模态序列的大型CMU-MOSEI数据集多模态情感分析性能结果

3 实验

        我们提出了我们的早期实验,以评估所提出的模型在(Tsai et al ., 2019)使用的标准多模态数据集上的性能。我们在CMU-MOSI、CMU-MOSEI和IEMOCAP数据集上运行我们的模型,并给出了所提出的LMF-MulT和基于融合的cmatn - mult模型的结果。晚期融合(LF) LSTM是所有报告结果的数据集的共同基线(pub)以及MulT in (Tsai et al ., 2019)。为了进行直接比较,我们包含了MulT模型获得的结果(我们的运行)2。表1、表2和表3显示了各种模型在情感分析和情感分类数据集上的性能。我们没有观察到任何趋势表明我们的方法可以获得比原始MulT方法更好的准确性或f1分数(Tsai et al, 2019)。然而,我们确实注意到,在某些情况下,我们的方法可以获得比MulT模型更高的结果,无论是在对齐(参见表3中IEMOCAP的LMF-MulT结果)还是未对齐(参见表2中CMUMOSEI的LMF-MulT结果)的情况下。我们计划对超参数进行详尽的网格搜索,以了解我们的方法是否可以比原始的竞争方法更好地学习对多模态信号进行分类。虽然结果具有可比性,但以下是使用我们的方法的优点:

•我们的LMF-MulT模型不使用多个并联自关注变压器用于不同的模态,与其他两个模型相比,它使用的变压器数量最少。给定相同的训练基础设施和资源,我们观察到使用这种方法的训练速度一致。表4显示了所有三种模型在使用固定批大小时每个epoch的平均时间(以秒为单位)。

•我们的LMF-MulT模型不使用多个并联自关注变压器用于不同的模态,与其他两个模型相比,它使用的变压器数量最少。给定相同的训练基础设施和资源,我们观察到使用这种方法的训练速度一致。表4显示了所有三种模型在使用固定批大小时每个epoch的平均时间(以秒为单位)。

Table 3:多模态情感识别在IEMOCAP数据集上对齐和未对齐多模态序列的性能结果

(我们已经在https://github.com/ yaohunt /Multimodal-Transformer 上发布的MulT代码库(Tsai等人,2019)上构建了这项工作。在这项工作中,我们没有关注模型的进一步超参数调优。)

4 结论

        在本文中,我们介绍了我们对利用多模态序列的低秩表示用于多模态变压器的早期研究,其中交叉模态关注融合信号或模态。我们的方法建立在(Tsai et al ., 2019)的工作基础上,并将变压器应用于融合的多模态信号,旨在通过低秩矩阵分解捕获所有多模态信号(Liu et al ., 2018)。该方法既适用于已对齐序列,也适用于未对齐序列。我们的方法训练更快,使用更少的参数来学习具有相似SOTA性能的分类器。我们正在探索不使用丢失时间信息的lstm中的隐藏状态上下文向量来压缩时间序列的方法。我们用卷积层恢复时间信息。我们相信,通过进一步优化,这些模型可以部署在低资源环境中。我们也有兴趣为音频、文本和视觉管道使用更丰富的功能,以便我们可以利用更多的资源。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值