Multimodal Emotion Recognition With Transformer-Based Self Supervised Feature Fusion
标题 | Multimodal Emotion Recognition With Transformer-Based Self Supervised Feature Fusion |
---|---|
译题 | 基于 Transformer 的自监督特征融合的多模态情感识别 |
时间 | 2022年 |
摘要:鉴于情感识别的复杂性,它是一个具有挑战性的研究领域,人类通过各种方式表达情感线索,如语言、面部表情和言语。特征的表示和融合是多模态情感识别研究中最关键的任务。自监督学习(Self Supervised Learning, SSL)已成为表征学习中一个突出且有影响力的研究方向,研究人员可以访问表示不同数据模式的预先训练的 SSL 模型。在文献中,我们首次用从独立预训练的 SSL 模型中提取的特征来表示文本、音频(语音)和视觉的三种输入模式。鉴于 SSL 特征的高维性,我们引入了一种新的基于 Transformers 和 Attention 的融合机制,该机制可以结合多模态 SSL 特征,并在多模式情感识别任务中获得最先进的结果。我们对我们的工作进行了基准测试和评估,以表明我们的模型是稳健的,并且在四个数据集上优于最先进的模型。
1 引言
多模态人类情绪识别和情绪分析是许多应用的重要方面,如客户服务、医疗保健和教育[1]。深度学习[2](DL)的进步已经显著提高了多模态情绪识别[3],[4]。多模态情感识别的两个主要研究方向是(1)如何表示原始数据模态,以及(2)如何在预测层之前融合这些模态。数据的良好表示应该捕捉情感线索,这些线索可以概括不同的说话者、背景条件和语义内容。一个好的融合机制应该能够有效地组合输入模态。在表示数据模态时,早期的方法采用了传统的情绪识别特征,如 Mel 频率倒谱系数(MFCC)特征[5]、面部肌肉运动特征[6]和手套嵌入[7]。最近的工作还探索了迁移学习技术[8]-[10]从预先训练的 DL 模型中提取特征的适用性,而不是使用低级特征。这项工作主要集中在基于监督学习方法从已经训练的 DL 网络中提取与面部表情[11]和语音信号[12]相关的特征。大多数先前的工作同时使用低级特征和深度特征(从预先训练的 DL 模型中提取的特征)[13],[14],而不是用深度特征表示所有模态。
与之前的工作相比,我们使用从预训练的自监督学习(SSL)中提取的深层特征来表示所有输入模态(音频、视频和文本),SSL 是一种强大的表示学习技术,模型[15]–[17]。尽管 SSL 功能提供了输入模态的强大表示,但由于以下原因,在最终预测之前将其融合是一项极具挑战性的任务:
- SSL 嵌入的高维度
- SSL 特征的较长序列长度
- 从不同 SSL 模型中提取的模式之间 SSL 特征的大小和序列长度不匹配
尽管简单的串联似乎是一个可行的选择,但完全连接高维 SSL 嵌入所需的额外可训练参数会使网络容易过拟合。考虑到这些问题,我们基于 Self-Attention [18]和 Transformers [18]–[20]的核心概念,提出了一种可靠有效的 SSL 特征融合机制。我们使用 RoBERTa [19]的三个公开可用的预训练 SSL 模型来表示文本,Wav2Vec[17]来表示语音,FAb-Net[16]来表示面部表情。
我们介绍了一种新的融合机制,即自监督嵌入式融合 Transformer(SSE-FT)。如图1所示,我们的框架主要由两个基于自注意的Transformers 和六个基于模态间注意(IMA)的 Transformer 块组成(参见第三节)。
首先,两个基于自注意的 Transformer 修改了语音和视频 SSL 嵌入。这个修改步骤将一个名为 CLS 的特殊令牌添加到语音和视频序列中,该令牌可以聚合嵌入整个序列中的信息。我们没有修改文本 SSL 嵌入序列,因为它们是从基于 Transformer 的模型中提取的,其中嵌入序列已经包含 CLS 令牌。然后,所有三个 SSL 嵌入序列都通过六个基于 IMA 的 Transformer ,这些 Transformer 利用来自其他模态的有用信息丰富每个模态的序列表示。在这一步中,我们特别使用与每个模态相关的 CLS 令牌。最后,我们引入了一种基于 Hadamard 乘积的计算来计算每个模态中最重要的特征。总之,我们的主要贡献如下:
- 在多模态情感识别中使用从三个独立的预训练 SSL 架构中提取的三模态 SSL 特征;
- 引入了一种新的基于 Transformer的融合机制,该机制融合了具有任意嵌入、大小和序列长度的 SSL 功能;
- 在四个公开可用的多模态数据集上评估和比较我们模型的稳健性和可推广性;
- 进行一系列消融研究,以了解架构中每个主要组件的影响。
2 背景介绍及相关工作
在本节中,我们将介绍背景以及与我们的研究密切相关的工作。首先,我们简要介绍了用于多模态情绪识别的特征提取机制。然后,我们总结了 SSL 的理论,并解释了本研究中使用的三个预先训练的 SSL 模型。最后,我们重点介绍了与多模态融合密切相关的工作。
2.1 特征提取机制
在多模态情绪识别设置中,大多数先前的工作[11]使用了低级别和深层特征的混合。本节概述了先前工作中使用的不同特征提取机制。
2.1.1 低级特征提取机制
通常,多模态情感识别算法由特征提取机制和融合方法组成[21]。先前的工作已经讨论了常用数据模态(如音频、视频和文本)的几种特征提取机制。MFCC [22]和 COVAREP [5]可以被识别为典型的语音特征提取机制。Skip gram 和 Glove [7]等 Word-to-Vector 方法是文本特征的常见示例。有像 FACET [23]这样的直接工具可以提取面部特征来理解情绪。
2.1.2 深层特征提取机制
从预先训练的 DL 模型中提取的特征被称为深度特征。通常,这种 DL 模型首先用一个或多个大型监督数据集进行训练。先前的工作[9]已经使用预先训练的面部识别网络来提取面部特征。先前的工作[24],[25]也使用预先训练的语音到文本模型来提取情感分析任务的语音特征。这项工作强调了从输入模态中提取的深层特征与低层次特征相比表现更好。
2.2 预先训练的 SSL 算法中提取多模态特征
从预先训练的 SSL 模型中提取的特征被称为自监督嵌入(SSE)。SSL 已成为自然语言处理(NLP)和计算机视觉(CV)社区[15]、[20]、[26]中一种突出的表示学习范式。SSL 算法有两个阶段。第一阶段称为预训练,而第二阶段使用预训练的 SSL 模型来提取下游任务的特征。预训练阶段利用一组给定的借口任务和大量未标记的数据。这种借口任务利用现有数据中的规律性和连接来设计监控信号。确定图像旋转[27]、[28]、查找句子中缺失的单词[19]、[20]等任务可以作为 NLP 和 CV 领域中使用的借口任务的例子。由预先训练的 SSL 算法生成的特征具有与问题无关的性质,因为它们没有使用特定于问题的手动标签进行训练[29]。
最近的文献描述了更大的 SSL 模型如何由数十亿个参数组成,如 GPT-2、GPT-3[30]–[32],这些参数在不同的 NLP 任务中优于基线模型。然而,从头开始训练这样的模型是一项计算成本非常高的任务。因此,我们强调了利用公共 SSL 模型的预训练版本作为多模态原始数据流的特征提取器的重要性。在我们的研究中,我们使用三个公开可用的预训练 SSL 模型来提取特征。先前的工作[13],[14]已经使用从BERT [20]中提取的 SSL 特征来表示多模态情感识别中的文本模态。据我们所知,这是首次使用两个或两个以上预先训练的 SSL 模型来提取多模态情绪识别中的特征。
2.3 用于多时间特征提取的 SSL 模型综述
在这项研究中,我们使用了三个预先训练的 SSL 模型。所有的模型检查点都是从公开的存储库中获取的。我们没有使用多模态情绪识别数据集对任何 SSL 模型进行微调。从冻结的 SSL 模型中提取每个数据模态的特征。
- RoBERTa
RoBERTa [19]是 BERT [20]模型的扩展,该模型在 GLUE 语言建模任务中显示了有竞争力的结果[33]。RoBERTa 和 BERT 的主要区别在于训练机制。RoBERTa 不使用下一个句子预测任务。我们使用开源 fairseq 工具包中经过预训练的 RoBERTa[34]。该模型由 355M 个参数组成,并在大型英语文本数据集上进行了预训练[35]。网络架构类似于 BERT,它包含一个 24 层的 Transformer 编码器。我们将标记化的原始文本输入到模型中,并使用最终层的输出作为特征表示。RoBERTa 可以处理最大长度为 512 个单词的大型标记化句子,其中每个句子被映射到 1024 个浮点的嵌入。 - Wav2Vec
Wav2vec[17] 的架构是在时间卷积层上开发的,用于自监督训练的借口任务利用了对比预测编码的概念[36]。正如 Wav2Vec 中的作者所建议的那样,上下文表示(context representation C)C可以用作表示原始音频波形的嵌入。作者将嵌入的大小设置为 512 ,最大音频波形长度设置为 9.5 秒。该网络由 35M 个参数组成,并对取自Librispeech
数据集的 960 小时音频进行了预训练[37]。预先训练的模型检查点是从Fairseq 存储库下载的[34]。 - FABNET
我们使用预先训练的 Fabnet [16]模型来获得视频中包含说话者面部的每个帧的嵌入。Fabnet 的借口任务是专门设计的,目的是鼓励网络学习编码特征、姿势和情绪的面部属性。给定仅嵌入对应于源帧和目标帧,网络被要求通过预测源帧与目标帧之间的流场来将源帧映射到目标帧,从而迫使网络理解应该在源图像像素中发生的偏移,以获得目标图像。该代理任务迫使网络将计算流场所需的信息(例如,头部姿势和表情)提取到源和目标嵌入中。源帧和目标帧取自具有相同身份但具有不同表情/姿势的人的相同面部轨迹。网络在voxceleb
数据集的两个大型数据集上进行预训练[38]。嵌入尺寸为 256 。我们使用这个网络来获得每个视频帧的表示。
2.4 多模态特征融合机制
先前的大量工作使用卷积神经网络(CNN)和基于 LSTM 的 DL(Deep Learning) 模型作为融合机制[3],[39]。最近的工作已经探索了新型 DL 架构(如Transformer[40]和 Graph Convolution Nets[41])作为融合方法的有效性。在比较类似于 LSTM 和 RNN 的顺序深度学习架构时,最近的工作强调了基于 Transformer [18]的方法的计算效率和有效性。与我们的工作相反,所有这些方法都使用低级功能。先前有工作使用基于 BERT 的[20] SSL 功能来表示文本,而其他模态则使用低级功能来表示。这些工作讨论了基于 RNN 和自注意机制的融合机制[13]。据我们所知,这是第一次在用 SSL 特征表示所有三种模态时提出融合机制。由于 SSL 功能具有高维嵌入、更大的序列大小、不同的序列长度和模态之间的嵌入维度,我们设计了一种基于 Transformer 的融合机制,该机制比以前的技术更高效、更准确。
3. 方法
在本节中,我们介绍了我们新的融合机制的每个组件,即自监督嵌入式融合 Transformer(SSE-FT)。首先,我们描述了使用预训练的 SSL 模型的特征提取过程。接下来,我们将解释语音和视频 SSL 嵌入修改背后的核心概念。之后,我们介绍了基于模态间注意(Inter-Modality-Attention, IMA)思想的跨模型融合方法。最后,我们解释了基于 Hadarmard 计算的特征选择。
3.1 自监督嵌入提取
作为第一步,我们使用第 2.3 节中描述的三个预先训练的 SSL 模型从原始数据模态中提取特征。如 表1 所示,SSL 特征的尺寸和最大训练序列长度在每个模态中都有所不同。RoBERTa [19]和 Wav2Vec [17]的预训练模型都是从 Fairseq 代码库[34]访问的,并用于提取文本和语音 SSL 特征。为了下载预先训练的 Fabnet 模型并提取视频模态的特征,我们参考了他们的出版物[16]。为了从视频中提取特征,我们使用 Retina Face[42]面部识别模型从每个视频帧中裁剪人脸。然后,我们通过预先训练的 Fabnet 模型发送由人脸组成的每个帧,以获得视频模态的特征。
表1 从预先训练的 SSL 模型中提取的嵌入统计信息。
3.2 SSL 嵌入的修改
图2由两个 Transformer 块组成,说明了语音和视频嵌入序列修改的过程。从 SSL 模型中提取的特征具有较大的嵌入大小和较长的序列长度。我们想开发一种机制,其中单个嵌入可以表示与模态相关的长嵌入序列。为了实现这一点,我们通过准备名为 CLS 的可训练向量来修改 Wav2Vec 嵌入(A)和 Fabnet 嵌入(V),并将自注意应用于每个嵌入序列,如 等式1 所示。等式2 中的自注意机制与原始的Transformer 机制[18]类似。在 等式2 中,符号 Q、K、V 和 d Q d_Q dQ 分别表示查询向量的 Query、Key、V 值和维度。
V e m b e d d i n g s = S e l f A t t e n t i o n [ p r e p e n d ( [ C L S ] V , F a b n e t s e q ) ] A e m b e d d i n g s = S e l f A t t e n t i o n [ p r e p e n d ( [ C L S ] A , W a v 2 V e c s e q ) ] ( 1 ) S e l f A t t e n t i o n = s o f t m a x ( Q K T d