Multimodal Emotion Recognition With Transformer-Based Self Supervised Feature Fusion

Multimodal Emotion Recognition With Transformer-Based Self Supervised Feature Fusion

标题Multimodal Emotion Recognition With Transformer-Based Self Supervised Feature Fusion
译题基于 Transformer 的自监督特征融合的多模态情感识别
时间2022年

摘要:鉴于情感识别的复杂性,它是一个具有挑战性的研究领域,人类通过各种方式表达情感线索,如语言、面部表情和言语。特征的表示和融合是多模态情感识别研究中最关键的任务。自监督学习(Self Supervised Learning, SSL)已成为表征学习中一个突出且有影响力的研究方向,研究人员可以访问表示不同数据模式的预先训练的 SSL 模型。在文献中,我们首次用从独立预训练的 SSL 模型中提取的特征来表示文本、音频(语音)和视觉的三种输入模式。鉴于 SSL 特征的高维性,我们引入了一种新的基于 Transformers 和 Attention 的融合机制,该机制可以结合多模态 SSL 特征,并在多模式情感识别任务中获得最先进的结果。我们对我们的工作进行了基准测试和评估,以表明我们的模型是稳健的,并且在四个数据集上优于最先进的模型。

1 引言

多模态人类情绪识别和情绪分析是许多应用的重要方面,如客户服务、医疗保健和教育[1]。深度学习[2](DL)的进步已经显著提高了多模态情绪识别[3],[4]。多模态情感识别的两个主要研究方向是(1)如何表示原始数据模态,以及(2)如何在预测层之前融合这些模态。数据的良好表示应该捕捉情感线索,这些线索可以概括不同的说话者、背景条件和语义内容。一个好的融合机制应该能够有效地组合输入模态。在表示数据模态时,早期的方法采用了传统的情绪识别特征,如 Mel 频率倒谱系数(MFCC)特征[5]、面部肌肉运动特征[6]和手套嵌入[7]。最近的工作还探索了迁移学习技术[8]-[10]从预先训练的 DL 模型中提取特征的适用性,而不是使用低级特征。这项工作主要集中在基于监督学习方法从已经训练的 DL 网络中提取与面部表情[11]和语音信号[12]相关的特征。大多数先前的工作同时使用低级特征和深度特征(从预先训练的 DL 模型中提取的特征)[13],[14],而不是用深度特征表示所有模态。

与之前的工作相比,我们使用从预训练的自监督学习(SSL)中提取的深层特征来表示所有输入模态(音频、视频和文本),SSL 是一种强大的表示学习技术,模型[15]–[17]。尽管 SSL 功能提供了输入模态的强大表示,但由于以下原因,在最终预测之前将其融合是一项极具挑战性的任务:

  1. SSL 嵌入的高维度
  2. SSL 特征的较长序列长度
  3. 从不同 SSL 模型中提取的模式之间 SSL 特征的大小和序列长度不匹配

尽管简单的串联似乎是一个可行的选择,但完全连接高维 SSL 嵌入所需的额外可训练参数会使网络容易过拟合。考虑到这些问题,我们基于 Self-Attention [18]和 Transformers [18]–[20]的核心概念,提出了一种可靠有效的 SSL 特征融合机制。我们使用 RoBERTa [19]的三个公开可用的预训练 SSL 模型来表示文本,Wav2Vec[17]来表示语音,FAb-Net[16]来表示面部表情。
我们介绍了一种新的融合机制,即自监督嵌入式融合 Transformer(SSE-FT)。如图1所示,我们的框架主要由两个基于自注意的Transformers 和六个基于模态间注意(IMA)的 Transformer 块组成(参见第三节)。

首先,两个基于自注意的 Transformer 修改了语音和视频 SSL 嵌入。这个修改步骤将一个名为 CLS 的特殊令牌添加到语音和视频序列中,该令牌可以聚合嵌入整个序列中的信息。我们没有修改文本 SSL 嵌入序列,因为它们是从基于 Transformer 的模型中提取的,其中嵌入序列已经包含 CLS 令牌。然后,所有三个 SSL 嵌入序列都通过六个基于 IMA 的 Transformer ,这些 Transformer 利用来自其他模态的有用信息丰富每个模态的序列表示。在这一步中,我们特别使用与每个模态相关的 CLS 令牌。最后,我们引入了一种基于 Hadamard 乘积的计算来计算每个模态中最重要的特征。总之,我们的主要贡献如下:

  • 在多模态情感识别中使用从三个独立的预训练 SSL 架构中提取的三模态 SSL 特征;
  • 引入了一种新的基于 Transformer的融合机制,该机制融合了具有任意嵌入、大小和序列长度的 SSL 功能;
  • 在四个公开可用的多模态数据集上评估和比较我们模型的稳健性和可推广性;
  • 进行一系列消融研究,以了解架构中每个主要组件的影响。

2 背景介绍及相关工作

在本节中,我们将介绍背景以及与我们的研究密切相关的工作。首先,我们简要介绍了用于多模态情绪识别的特征提取机制。然后,我们总结了 SSL 的理论,并解释了本研究中使用的三个预先训练的 SSL 模型。最后,我们重点介绍了与多模态融合密切相关的工作。

2.1 特征提取机制

在多模态情绪识别设置中,大多数先前的工作[11]使用了低级别和深层特征的混合。本节概述了先前工作中使用的不同特征提取机制。

2.1.1 低级特征提取机制

通常,多模态情感识别算法由特征提取机制和融合方法组成[21]。先前的工作已经讨论了常用数据模态(如音频、视频和文本)的几种特征提取机制。MFCC [22]和 COVAREP [5]可以被识别为典型的语音特征提取机制。Skip gram 和 Glove [7]等 Word-to-Vector 方法是文本特征的常见示例。有像 FACET [23]这样的直接工具可以提取面部特征来理解情绪。

2.1.2 深层特征提取机制

从预先训练的 DL 模型中提取的特征被称为深度特征。通常,这种 DL 模型首先用一个或多个大型监督数据集进行训练。先前的工作[9]已经使用预先训练的面部识别网络来提取面部特征。先前的工作[24],[25]也使用预先训练的语音到文本模型来提取情感分析任务的语音特征。这项工作强调了从输入模态中提取的深层特征与低层次特征相比表现更好。

2.2 预先训练的 SSL 算法中提取多模态特征

从预先训练的 SSL 模型中提取的特征被称为自监督嵌入(SSE)。SSL 已成为自然语言处理(NLP)和计算机视觉(CV)社区[15]、[20]、[26]中一种突出的表示学习范式。SSL 算法有两个阶段。第一阶段称为预训练,而第二阶段使用预训练的 SSL 模型来提取下游任务的特征。预训练阶段利用一组给定的借口任务和大量未标记的数据。这种借口任务利用现有数据中的规律性和连接来设计监控信号。确定图像旋转[27]、[28]、查找句子中缺失的单词[19]、[20]等任务可以作为 NLP 和 CV 领域中使用的借口任务的例子。由预先训练的 SSL 算法生成的特征具有与问题无关的性质,因为它们没有使用特定于问题的手动标签进行训练[29]。

最近的文献描述了更大的 SSL 模型如何由数十亿个参数组成,如 GPT-2、GPT-3[30]–[32],这些参数在不同的 NLP 任务中优于基线模型。然而,从头开始训练这样的模型是一项计算成本非常高的任务。因此,我们强调了利用公共 SSL 模型的预训练版本作为多模态原始数据流的特征提取器的重要性。在我们的研究中,我们使用三个公开可用的预训练 SSL 模型来提取特征。先前的工作[13],[14]已经使用从BERT [20]中提取的 SSL 特征来表示多模态情感识别中的文本模态。据我们所知,这是首次使用两个或两个以上预先训练的 SSL 模型来提取多模态情绪识别中的特征。

2.3 用于多时间特征提取的 SSL 模型综述

在这项研究中,我们使用了三个预先训练的 SSL 模型。所有的模型检查点都是从公开的存储库中获取的。我们没有使用多模态情绪识别数据集对任何 SSL 模型进行微调。从冻结的 SSL 模型中提取每个数据模态的特征。

  1. RoBERTa
    RoBERTa [19]是 BERT [20]模型的扩展,该模型在 GLUE 语言建模任务中显示了有竞争力的结果[33]。RoBERTa 和 BERT 的主要区别在于训练机制。RoBERTa 不使用下一个句子预测任务。我们使用开源 fairseq 工具包中经过预训练的 RoBERTa[34]。该模型由 355M 个参数组成,并在大型英语文本数据集上进行了预训练[35]。网络架构类似于 BERT,它包含一个 24 层的 Transformer 编码器。我们将标记化的原始文本输入到模型中,并使用最终层的输出作为特征表示。RoBERTa 可以处理最大长度为 512 个单词的大型标记化句子,其中每个句子被映射到 1024 个浮点的嵌入。
  2. Wav2Vec
    Wav2vec[17] 的架构是在时间卷积层上开发的,用于自监督训练的借口任务利用了对比预测编码的概念[36]。正如 Wav2Vec 中的作者所建议的那样,上下文表示(context representation C)C可以用作表示原始音频波形的嵌入。作者将嵌入的大小设置为 512 ,最大音频波形长度设置为 9.5 秒。该网络由 35M 个参数组成,并对取自 Librispeech 数据集的 960 小时音频进行了预训练[37]。预先训练的模型检查点是从Fairseq 存储库下载的[34]。
  3. FABNET
    我们使用预先训练的 Fabnet [16]模型来获得视频中包含说话者面部的每个帧的嵌入。Fabnet 的借口任务是专门设计的,目的是鼓励网络学习编码特征、姿势和情绪的面部属性。给定仅嵌入对应于源帧和目标帧,网络被要求通过预测源帧与目标帧之间的流场来将源帧映射到目标帧,从而迫使网络理解应该在源图像像素中发生的偏移,以获得目标图像。该代理任务迫使网络将计算流场所需的信息(例如,头部姿势和表情)提取到源和目标嵌入中。源帧和目标帧取自具有相同身份但具有不同表情/姿势的人的相同面部轨迹。网络在 voxceleb 数据集的两个大型数据集上进行预训练[38]。嵌入尺寸为 256 。我们使用这个网络来获得每个视频帧的表示。

2.4 多模态特征融合机制

先前的大量工作使用卷积神经网络(CNN)和基于 LSTM 的 DL(Deep Learning) 模型作为融合机制[3],[39]。最近的工作已经探索了新型 DL 架构(如Transformer[40]和 Graph Convolution Nets[41])作为融合方法的有效性。在比较类似于 LSTM 和 RNN 的顺序深度学习架构时,最近的工作强调了基于 Transformer [18]的方法的计算效率和有效性。与我们的工作相反,所有这些方法都使用低级功能。先前有工作使用基于 BERT 的[20] SSL 功能来表示文本,而其他模态则使用低级功能来表示。这些工作讨论了基于 RNN 和自注意机制的融合机制[13]。据我们所知,这是第一次在用 SSL 特征表示所有三种模态时提出融合机制。由于 SSL 功能具有高维嵌入、更大的序列大小、不同的序列长度和模态之间的嵌入维度,我们设计了一种基于 Transformer 的融合机制,该机制比以前的技术更高效、更准确。

3. 方法

在本节中,我们介绍了我们新的融合机制的每个组件,即自监督嵌入式融合 Transformer(SSE-FT)。首先,我们描述了使用预训练的 SSL 模型的特征提取过程。接下来,我们将解释语音和视频 SSL 嵌入修改背后的核心概念。之后,我们介绍了基于模态间注意(Inter-Modality-Attention, IMA)思想的跨模型融合方法。最后,我们解释了基于 Hadarmard 计算的特征选择。

3.1 自监督嵌入提取

作为第一步,我们使用第 2.3 节中描述的三个预先训练的 SSL 模型从原始数据模态中提取特征。如 表1 所示,SSL 特征的尺寸和最大训练序列长度在每个模态中都有所不同。RoBERTa [19]和 Wav2Vec [17]的预训练模型都是从 Fairseq 代码库[34]访问的,并用于提取文本和语音 SSL 特征。为了下载预先训练的 Fabnet 模型并提取视频模态的特征,我们参考了他们的出版物[16]。为了从视频中提取特征,我们使用 Retina Face[42]面部识别模型从每个视频帧中裁剪人脸。然后,我们通过预先训练的 Fabnet 模型发送由人脸组成的每个帧,以获得视频模态的特征。

表1 从预先训练的 SSL 模型中提取的嵌入统计信息。
表1

3.2 SSL 嵌入的修改

图2由两个 Transformer 块组成,说明了语音和视频嵌入序列修改的过程。从 SSL 模型中提取的特征具有较大的嵌入大小和较长的序列长度。我们想开发一种机制,其中单个嵌入可以表示与模态相关的长嵌入序列。为了实现这一点,我们通过准备名为 CLS 的可训练向量来修改 Wav2Vec 嵌入(A)和 Fabnet 嵌入(V),并将自注意应用于每个嵌入序列,如 等式1 所示。等式2 中的自注意机制与原始的Transformer 机制[18]类似。在 等式2 中,符号 Q、K、V 和 d Q d_Q dQ 分别表示查询向量的 Query、Key、V 值和维度。
V e m b e d d i n g s = S e l f A t t e n t i o n [ p r e p e n d ( [ C L S ] V , F a b n e t s e q ) ] A e m b e d d i n g s = S e l f A t t e n t i o n [ p r e p e n d ( [ C L S ] A , W a v 2 V e c s e q ) ] ( 1 ) S e l f A t t e n t i o n = s o f t m a x ( Q K T d Q ) V ( 2 ) V_{embeddings} = Self Attention[ prepend( [CLS]_V, Fabnet_{seq}) ]\kern10em \\ A_{embeddings} = Self Attention[ prepend( [CLS]_A, Wav2Vec_{seq} ) ]\kern10em (1) \\ Self Attention = softmax(\displaystyle\dfrac {QK^T} {\sqrt{d_Q}}) V\kern20em(2) Vembeddings=SelfAttention[prepend([CLS]V,Fabnetseq)]Aembeddings=SelfAttention[prepend([CLS]A,Wav2Vecseq)](1)SelfAttention=softmax(dQ QKT)V(2)
图2
在我们的嵌入序列修改阶段,我们从 BERT [20]或 RoBERTa [19]模型如何使用称为 CLS(代表分类)的第一个唯一标记来表示整个序列中获得了灵感。由于基于 BERT 的模型中的自注意机制是双向的(过去和未来),因此作为序列的第一个令牌的 CLS 令牌被编码为其右侧的所有信息,即未来序列。因此,CLS 令牌可以用作压缩表示来解决诸如情绪分析之类的分类问题。在我们的模型中,我们只为 Wav2VecFabNet 嵌入序列准备了 CLS 令牌,因为它们没有遵循与 BERT 类似的架构。由于 RoBERTa 是一个基于 BERT 的模型,我们使用了文本嵌入序列。访问代表三种模态的三个 CLS 令牌有助于我们有效地计算 IMA ,并设计一个直接的后期融合机制。

3.3 基于模态间注意力(IMA)的融合层

图3 由六个 Transformers 块组成,说明了基于 IMA 的融合层的功能。IMA 融合层的主要目的是跨模态共享相关信息。IMA 融合层旨在将一种模态的表示与从其他模态的表示中获得的信息嵌入其中。IMA 层的工作原理类似于 等式 2 中的自注意,不同之处在于它从一种模态的 CLS 标记创建 Query(Q)向量,从另一种模态嵌入序列创建 Key(K)-Value(V)向量。

IMA 融合层的输入由三个嵌入序列组成,其中每个嵌入序列的第一个令牌是 CLS 令牌。由于每个模态的 CLS 令牌聚合了序列的信息,因此 IMA 注意力是在一个模态的 CLSs 令牌和另一个模态整个嵌入序列之间计算的。这样,就有六个 IMA Transformers 块,其中每个 Transformer 块的 Q 向量是根据一个模态的 CLS 令牌计算的,K-V 向量是根据另一个模态整个嵌入序列计算的。

3.4 Hadarmard 乘积在预测layer之前的应用

作为下一步,我们探索了在预测层之前将它们组合的可能方法。六个 tokens 的串联似乎是组合信息的明显方式。然而,在我们的工作中,我们在串联之前进一步简化了 CLS 令牌。如图 1 所示,考虑到它们的核心模态( IMA 计算中 Q 向量的模态),六个 CLS 嵌入可以分为三对。最后,为了提取源于一种模态的基本信息,我们在相同核心模态的 CLS 令牌对之间取阿达玛乘积( ⨀ \bigodot )。等式3说明了 IMA 层计算的六个 CLS 令牌之间的 Hadamard 乘积的计算(图3)。符号 v v v a a a t t t 分别用于表示视频、语音(音频)和文本模态。 v f i n a l v_{final} vfinal a f i n a l a_{final} afinal t f i n a l t_{final} tfinal 是计算属于同一核心模态的 IMA 融合层输出之间的 Hadamard 乘积后的三个结果向量。直观地,Hadamard 乘积用于提取两个 CLS 表示之间的相互信息。先前的工作[43]也强调了使用 Hadamard 计算来丰富 BERT 嵌入中的信息的有效性。最后,在 Hadamard 计算之后,我们将最后三个表示连接起来,并通过预测层发送它们。我们在消融研究中比较了基于 Hadamard 计算的融合与 6 个向量级联的使用(见第6.4节),并从经验上表明所提出的方法效果更好。
v f i n a l = [ C L S ] v i d e o → s p e e c h ⨀ [ C L S ] v i d e o → t e x t a f i n a l = [ C L S ] s p e e c h → v i d e o ⨀ [ C L S ] s p e e c h → t e x t t f i n a l = [ C L S ] t e x t → v i d e o ⨀ [ C L S ] t e x t → s p e e c h F i n a l f u s i o n = c o n c a t e n a t i o n ( v f i n a l , a f i n a l , t f i n a l ) ( 3 ) v_{final} = [CLS]_{ video \to speech } \bigodot [CLS]_{ video \to text }\kern5em \\ a_{final} = [CLS]_{ speech \to video } \bigodot [CLS]_{ speech \to text }\kern5em \\ t_{final} = [CLS]_{ text \to video } \bigodot [CLS]_{ text \to speech }\kern5em \\ Final_{fusion} = concatenation(v_{final}, a_{final}, t_{final})\kern10em (3) vfinal=[CLS]videospeech[CLS]videotextafinal=[CLS]speechvideo[CLS]speechtexttfinal=[CLS]textvideo[CLS]textspeechFinalfusion=concatenation(vfinal,afinal,tfinal)(3)

3.5 融合方法综述

总之,我们的融合方法由三个主要部分组成。首先,我们通过添加两个可训练的 CLS 嵌入来修改语音和视频嵌入序列,并通过两个不同的基于自注意的 Transformer 发送它们。在嵌入修改步骤之后,我们通过由 IMA 组成的六个 Transformer 块发送嵌入,以捕获跨模态信息。最后,我们计算了与同一模态相关的 CLS 令牌之间的 Hadamard 乘积,以利用最相关的信息丰富令牌。我们在实验中只使用了三种模态,但当使用三种以上的 SSL 功能模态时,这种方法可以很容易地扩展。

4 实现细节

本节介绍了模型实现和实验设置的细节。我们用 F a i r s e q 2 Fairseq^2 Fairseq2 [34]实现了我们的模型,这是一个基于 P y t o r c h 3 Pytorch^3 Pytorch3 DL 框架的顺序数据处理框架。培训是在分布式 GPU 设置中使用两个 1080 NVIDIA Titan GPU 进行的。最终超参数的细节如表2所示。

表2 超参数调整。我们用于各种任务的 SSE-FT 的超参数。“# of 注意力块” 和 “# IMA Heads” 用于每个 Transformer 。我们对超参数进行了基本的网格搜索,如池化率、Transformer 块的数量和注意力头。
表2

5 评估数据集

为了继续我们的实验,我们使用了四个公开可用的数据集。所有这些数据集都由语音、文本和视频模态组成。我们将我们提出的方法与针对每个数据集发布的最先进的结果进行了比较,如结果第六节所述。重要的是要注意先前工作对不同数据集使用的评估指标的变化。因此,为了对我们模型的性能进行公平的评估,我们遵循了许多先前工作[3]、[4]、[4]、[40]使用的相同评估程序,这些工作显示了每个数据集的最先进结果。我们使用准确性、F1-score 、平均误差和相关系数作为主要评估指标。所使用的所有数据集的统计数据汇总见表 3 。IEMOCAP [44]和 MELD [3]数据集都用常见的分类情感类进行了注释,如快乐、悲伤、愤怒、中性和兴奋。CMU-MOSI [45]和 CMU-MOSEI [4]都用在 −3 到 +3 之间变化的情绪评分进行了注释。在第六节中,我们进一步解释了评估过程中使用的数据集和评估指标。

6 结果

在本节中,我们首先解释了在四个数据集上评估我们模型性能的实验,然后介绍了为理解我们提出的模型的功能而进行的消融研究。这项工作旨在设计一种有效的融合机制,当用 SSL 特征表示所有输入特征模态时。主要是,我们专注于设计一种融合机制,该机制可以通过几种模态的 SSL 功能轻松扩展。我们还想强调自监督特征在多模态情绪识别任务中的有效性。出于比较和评估的目的,我们主要使用 MuLT [40]作为与我们提出的方法最接近的多模态融合机制。尽管 MuLT [40]使用了基于 Transformer 的融合机制,但他们的工作并没有集中在使用 SSL 功能上,这使我们能够强调 SSL 功能的有效性。我们基于 Transformer 的融合机制由独特的组件组成,如使用 CLS 令牌进行嵌入修改、基于模态特定 CLS 令牌的 IMA 和提取信息的 Hadamard 计算。明确引入这些组件是为了使用 SSL 功能。在撰写本文时,我们没有发现类似的工作专门关注使用高维 SSL 功能来表示所有模态。

6.1 IEMOCAP 实验

IEMOCAP [44]数据集包含在 5 个会话中收集的 10 名男性和女性参与者的会话数据,每个会话由 2 名独特的参与者组成。数据按话语进行分割,其中每个话语都被转录和注释。标签选自愤怒、快乐、悲伤、中性、兴奋、沮丧、恐惧、惊讶和其他情绪类别。由于数据集在类之间并不均匀分布,我们遵循了先前的工作[4]、[40],只使用了四个最常见的标签,即快乐、悲伤、愤怒和兴奋。

为了提供公平的评估,我们在设计模型输出层的最后一步(计算每种情绪的二元精度)时遵循了先前的工作[4],[40]。对于每一句话语,算法都会预测每一种情绪的可用性。我们通过前四次训练和最后一次测试的例子,将数据集分为训练和测试。因此,训练和测试数据集分别具有来自 8 个和 2 个不同参与者的数据。这种拆分方式还允许我们在与说话者无关的设置中评估算法,这对现实世界的场景至关重要。表4 显示了与之前的工作相比,每种情绪的准确度和 F1-score 都更高。

表4 在 IEMOCAP 上使用非对齐多模态序列进行多模态情绪分析的结果。我们报告了每种情绪的二进制准确性(Binary Accuracy)和 F1-score。其他型号的性能取自 MULT[40]
表4

6.2 CMU-MOSEI 实验

对于由 22000 个例子组成的多模态语言分析,每个例子都有相关的音频(语音)、视频和文本输入流。该数据集主要用于分析情绪,数据集是通过从 YouTube 中提取视频创建的,每个例子由三个人注释以减少偏差。与其他数据集中由离散情绪(如快乐和悲伤)组成的注释不同,该数据集是通过为每个例子分配一个从 −3 到 +3 不等的情绪分数来注释的,其中 −3 对应于极端负面的情绪,+3 表示极端正面的情绪。为了使用 CMU-MOSEI 数据集评估我们的模型,我们遵循了最新的先前工作[40],该工作使用七类精度和二进制精度来评估他们的模型。与通常的分类任务不同,这里,通过最小化平均绝对损失( L1 损失)来训练模型预测情绪得分。一旦训练了算法,预测的分数就会四舍五入到整数集 −3 到 +3 中最接近的整数,这将数据分为七类。然后使用零作为情绪得分的阈值来计算二进制精度(在先前的工作[4]、[40]之后,在评估二进制精度时去除了零标签)。与之前的工作[4]、[40]类似,我们使用了 CMU-SDK [46]中提供的标签和数据集拆分。表 5 显示了我们的模型与最先进的模型相比的性能。正如结果所示,我们的模型在每个评估指标上都优于最先进的模型,差距相当大。

表5 使用非对齐多模态序列对CMU-MOSEI进行多模式情绪分析的结果。我们报告了 7 类准确性、BA(Binary Accuray)和 F1-score(到这里为止的所有分数,越高越好)、MAE(平均绝对误差,越低越好)和 Corr(Pearson相关系数,越高更好)。其他模型的性能取自 MULT[40]。
表5

6.3 CMU-MOSI 实验

CMU-MOSI [45]多模态情绪分析数据集在所有方面都与 CMU-MOSEI [4]数据集相似,除了示例数量。它由 2200 个 Youtube 电影评论的例子组成。与 MOSEI 类似,我们使用了 CMU-SDK 中提供的标签和数据集拆分。表 6 显示了我们的模型与最近发表的工作的性能比较。尽管 CMU-MOSI 数据集包含的训练示例比其他数据集少,但我们的模型仍然可以以相当大的优势优于先前的工作。

表6 CMU-MOSI与非对齐多峰序列的多峰情绪分析结果。我们报告了七类准确率、二进制准确率(BA)、F1-score、平均绝对误差(MAE)和皮尔逊相关系数(Pearson Correlation Coefficient)。其他型号的性能取自MULT[40]
表6

6.4 MELD 实验

MELD [3]数据集包含来自《老友记》电视连续剧的 12000 多条话语。与其他数据集相比,MELD 是一个会话数据集,在一句话中有几个参与者的例子。每个话语都有注释,从七种情绪类别中选择一种:愤怒、厌恶、悲伤、喜悦、惊讶、恐惧和中性。为了进行公平的比较,我们提供了使用 Softmax 层分类的模型的七类精度。尽管我们使用 MuLT [40]作为所有其他数据集的最接近基准,但对于 MELD [3]数据集,由于低级别特征的不可用性,我们无法找到 MuLT [44]的性能进行比较。表 7 显示了我们的模型与最近对 MELD 数据集的其他评估在七类情绪识别准确性方面的比较和优势。

6.5 消融研究

如 表8 所示,我们使用 CMU-MOSEI [4]数据集进行了一系列消融研究,以了解所提出的融合机制中不同成分的影响。我们选择 CMU-MOSEI 是因为与其他数据集相比,它具有最高数量的训练示例。主要有以下三种类型的消融研究:

  • 对语音、文本和视频输入模式的消融研究;
  • 关于 IMA 层(预 IMA 层)使用的消融研究;
  • 使用 Hadamard 乘积的笑容研究。

1)单模态输入

如 表8 的第一部分(单模态 Transformer )所示,我们检查了每个输入模态对最终准确率的影响。在单模态实验中,自注意 Transformer 之后提取的 CLS 令牌被作为最终表示(仅用于语音和视频模态)。单模态结果突出了文本特征的重要性。文本模态给出了 80.2% 的二元情感准确率和 47.7% 的七类情感准确率。只有语音模态的模型在二进制和七类的准确率方面分别为 67.5% 和 43.8% 。最后,只有视频模态的模型在二进制和七类的准确率方面分别为 66.3% 和43.6% 。

必须强调的是,只有文本模态的模型比其他模态的性能要好得多。一个可能的原因可能是与其他SSL 功能模式相比,RoBERTa 嵌入的功能强大。我们将单模态消融研究的结果与记录的 MuLT [40]消融研究结果进行了比较,这些结果显示出类似的趋势。由于 CMU-MOSEI 数据集是从真实世界的 YouTube 评论视频示例中收集的,因此大多数情感内容都可以通过文本模式来理解。

2)双模态输入

接下来,我们进行了实验,以了解该模型在双模态输入下的性能。在这个实验中,我们使用 IMA融合层之后的两个 CLS 令牌作为最终表示。如 表 8(双模态部分)所示,以文本和语音为输入的模型给出了 54.1% 的七类情感准确率和 86% 的二元情感准确率的最佳结果。采用语音和视频的模型给出的七类情感准确率最低,为 44.18%,二元情感准确率为 68.2%。双模态结果也突出了关于 CMU-MOSI 数据集的文本模态的高信息性。

3)前 IMA 层

在本研究中,我们比较了模型在三模态设置下没有 IMA 块的性能。我们主要想通过六个 IMA 融合 Transformer 块来探索改进的原因。我们使用了在 IMA 层之前从三个嵌入序列中提取的三个CLS 令牌。在自我注意块之后提取的语音和视频模态的 CLS 令牌。文本序列的 CLS 标记是直接从 RoBERTa 嵌入中提取的。最后,在将三个向量发送到预测层之前,我们将它们连接起来。该设置实现了 47.5% 的七类情感准确度和 81.9% 的二进制准确度。与性能最佳的模型相比,七类情感分类的准确率为 55.5%,二元情感分类的正确率为 87.3%,从而突出了所提出的 IMA 融合Transformer 的有效性。

4)后 IMA 层

在这项消融研究中,我们探讨了 IMA 融合后提出的基于 Hadarmad 乘积的融合机制的有效性。在我们的最终模型中,我们从所有六个 IMA Transformers 中提取 CLS tokens 。然后,我们计算属于同一模态的 CLS 令牌之间的 Hadamard 乘积。在这个实验中,我们没有将 Hadarmad 乘积应用于 CLS tokens,而是将所有六个 CLS tokens 连接起来,并将其发送到最终预测层。在本实验中,该模型的七类情感准确率达到 53.3% ,二元情感准确率为 84.6% 。结果与我们的最终模型的比较突出了基于 Hadarmad 乘积的信息提取的有效性。正如最终结果所表明的那样,Hadamard 计算的使用将二进制和七类情感精度提高了近 3% ,同时减少了可训练参数的数量,因为所有六个向量的纯串联向最终预测层添加了三倍多的参数。

7 讨论

据我们所知,以前没有使用 SSL 功能来表示所有三种输入模式的工作。最近的工作仅使用 SSL 特征来表示具有预先训练的 BERT 特征的文本模态[48]。这些工作主要使用常见的 DL 架构,如CNN 和 LSTM 。在文献中,我们首次全面探索了具有 SSL 特征的所有模态的表示,克服了 SSL 特征的高维性质的挑战。SSL 已经成为一个受欢迎的研究领域,并且在 NLP 和 CV 方面已经有所改进。由于 SSL 范式可以使用广泛可用的未标记数据,越来越多的针对不同数据流的预训练SSL 模型正在向研究社区开源。通常,这些模型有不同的体系结构,并且它们是用不同的借口任务独立训练的。因此,在这项研究中,我们强调了引入有效可靠的融合机制的重要性,这些机制可用于融合多模态 SSL 特征。

我们提出的融合机制主要使用两个基于自注意的 Transformers 和六个基于 IMA 的 Transformer 。融合机制主要设计用于处理 SSL 嵌入的离散序列,同时仔细考虑不同预训练架构生成的 SSL 嵌入的差异。由于这些原因,我们可以很容易地使用从不同的预训练模型中提取的更多或新的SSL 特征来扩展所提出的机制。使用四个公开可用的数据集进行的实验突出了 SSL 特征为多模态情绪识别任务提供更好结果的能力。然后,消融研究的结果显示了我们提出的融合机制的最先进性能。

8 总结和未来展望

在这项工作中,我们专注于使用预先训练的 SSL 模型作为特征提取器来改进情绪识别任务。为了实现我们的目标,我们设计了一种基于 Transformer 的多模态融合机制,该机制能够通过理解模态间的连接来很好地执行。我们首先用四个成熟的多模态情感数据集的强基线评估了我们的模型,并证明我们的方法可以优于以前的先进方法。接下来,我们进行了强有力的消融研究,以了解我们融合机制中的重要组成部分。当使用 SSL 特征作为输入时,具有稳定且经过充分研究的融合机制是很重要的——从 SSL 技术生成的特征通常是高维的,可以被视为高级特征。结果表明,我们可以有效地使用来自不同预训练模型的 SSL 特征来解决多模式情绪识别的任务。 SSL 算法的使用使我们能够利用大量可用的无监督数据中的潜力来完成情感识别等任务。这种方法还使我们能够使用已经可用的预训练 SSL 模型,这些模型通常训练成本很高,并且需要大量的训练时间,而无需重新训练或从头开始训练。

尽管我们在这项工作中只关注语音、视频和文本,但我们希望在未来的工作中探索将 SSL 特征与脑电图(EEG)数据等其他模态融合的方法[49]。通过预先训练的 SSL 模型,我们为每种模态使用了独立训练的模型;然而,最近的文献表明,某些 SSL 算法可以学习视频和文本之间的联合信息,用于视频问答等任务[48]。因此,我们旨在探索此类模型,以提取特征和设计 SSL 模型的方法,从而在未来的研究中学习音频(语音)、视频和文本之间的联合表示。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值