题目 | A cross-modal fusion network based on self-attention and residual structure for multimodal emotion recognition |
---|---|
译题 | 基于自注意和残差结构的跨模态情感识别融合网络 |
时间 | 2021年 |
代码 | https://github.com/skeletonNN/CFN-SR |
A cross-modal fusion network based on self-attention and residual structure for multimodal emotion recognition
摘要:基于音视频的多模态情感识别由于其强大的性能而引起了人们的广泛关注。现有的方法大多侧重于提出不同的跨模态融合策略。然而,这些策略在没有充分考虑模态信息之间的互补特性的情况下,在不同模态的特征中引入了冗余,并且这些方法不能保证在模态内和模态间交互过程中不丢失原始语义信息。在本文中,我们提出了一种新的基于自注意和残差结构的跨模态融合网络(CFN-SR),用于多模态情感识别。首先,我们分别通过有效的 ResNeXt 和 1D CNN 对音频和视频模态进行表示学习,以获得这两种模态的语义特征。其次,我们将两种模态的特征分别输入到跨模态块中,以确保信息的有效互补性和完整性。最后,我们通过将获得的融合表示与原始表示拼接来获得情感的输出。为了验证所提出方法的有效性,我们在 RAVDESS 数据集上进行了实验。实验结果表明,所提出的 CFN-SR 达到了最先进的水平,在 26.30M 的参数下获得了 75.76% 的准确率。
1 Introduction
多模态情感识别因其高性能和鲁棒性而备受关注[1],应用于人机交互和社交机器人等各个领域[2]。多模态情感识别的主要目标是从视频序列中获得人类的情感表达。人类主要通过多种方式表达情感,如言语[3]、肢体手势[4]、面部表情[5]和文本[6]。尽管许多研究采用了更复杂的模态,但视频和音频仍然是这项任务的主要模态,因为它们能够充分传达情感。因此,在这项工作中,我们专注于基于音频-视频的多模态情绪识别。
在现有的研究中,多模态情感识别可以根据模态信息融合方法进行分类:早期融合[7]、晚期融合[8,9]和模型融合[10,11]。早期融合是将多个模态数据提取并构造成相应的模态特征,然后将它们拼接成一个集成每个模态特征的特征集。晚期融合是找出每个模型的合理性,然后进行协调并做出联合决策。最近,随着 Transformer [12]在自然语言处理和计算机视觉任务中的发展,模型融合通常使用Transformer进行跨模态交互,由于融合位置的灵活性,性能显著提高。对于音频-视频情感识别,[13]引入了 Transformer 来融合音频和视频表示。[14]探讨了不同的跨模态融合策略。[10] 提出了一种新的表示融合方法——胶囊图卷积(CapsGCN),将图胶囊网络用于音频和视频情感识别。
然而,现有的方法忽略了不同模态之间的互补信息,最终决策往往需要两个模态特定特征以及融合特征的联合决策。补充信息确保在添加融合模块时性能有所提高。此外,现有方法的融合方式仍存在大量冗余。一些模型仅被缝合在一起用于最终结果输出,并且缝合的结果将具有许多重复的表示,并且在缝合之前需要过滤特征信息以进一步减少冗余特征。此外,现有的方法不能保证特征学习过程中的信息完整性,模态内和模态间信息的学习往往会丢失一些语义信息。
为了解决上述问题,我们提出了一种新的基于自注意和残差结构的跨模态融合网络(CFN-SR),用于多模态情感识别。具体来说,我们首先对音频模态和视频模态进行表示学习。视频帧序列的时空结构特征是通过 ResNeXt [15]获得的。音频序列的 MFCC 特征是通过简单有效的 1D CNN 获得的。其次,我们将特征分别输入到跨模态块中,并通过自注意机制使音频模态进行模态内特征选择,这将使所选择的特征能够在模态之间自适应且高效地与视频模态交互。残余结构可以确保视频模态的原始结构特征的完整性。最后,我们通过拼接获得的融合表示和原始表示来获得情感的输出。我们将该模型应用于 RAVDESS [16]多模态情绪识别数据集,实验结果表明,我们提出的 CFN-SR 更有效,与其他模型相比,我们的方法达到了最先进的水平,获得了 75.76% 的准确率和 26.30M 的参数数。
2 Methodology
如图 1 所示,我们设计了一个基于自注意和残差结构的跨模态融合网络。首先,我们使用 3D CNN 来获得视频特征,使用 1D CNN 来获得音频特征。然后,我们通过跨模态融合块获得两种模态的模态间和模态内融合表示。最后,我们通过将获得的融合表示与原始表示拼接来获得情感的输出。我们将在下面详细描述这一过程。
2.1 音频 Encoder
对于音频模态,最近的工作[17,18]已经证明了基于梅尔频率倒谱系数(MFCC)特征的深度学习方法的有效性。我们设计了一种简单高效的 1D CNN 来进行 MFCC 特征提取。具体来说,我们使用经过特征预处理的音频模态特征作为输入,表示为 X A X_A XA。我们首先通过2层卷积运算来提取相邻音频元素的局部特征。之后,我们使用最大池来下采样,压缩特征,并去除冗余信息。具体方程式如下:
X ^ A = B N ( R e L U ( C o n v 1 D ( X A , k A ) ) ) ( 1 ) X ^ A = D r o p o u t ( B N ( M a x P o o l ( X ^ A ) ) ) ( 2 ) \hat{X}_A = BN ( ReLU(Conv1D(X_A, k_A)) ) \kern10em (1) \\ \hat{X}_A = Dropout(BN(MaxPool(\hat{X}_A)) ) \kern10em (2) X^A=BN(ReLU(Conv1D(XA,kA)))(1)X^A=Dropout(BN(MaxPool(X^A)))(2)
其中, B N BN BN 代表批量标准化, k A k_A kA 是模态音频的卷积核的大小,而 X ^ A \hat{X}_A X^A 表示学习的语义特征。我们再次将学习到的特征馈送到 1D 时间卷积中,以获得音频的高阶语义特征。最后,我们对获得的特征进行展平:
X ^ A = F l a t t e n ( B N ( R e L U ( C o n v 1 D ( X ^ A , k A ) ) ) ) ( 3 ) \hat{X}_A = Flatten(BN(ReLU(Conv1D(\hat{X}_A, k_A)))) \kern10em (3) X^A=Flatten(BN(ReLU(Conv1D(X^A,kA))))(3)
2.2 视频 Encoder
视频数据在空间和时间维度上都是依赖的,因此需要一个具有 3D 卷积核的网络来学习面部表情和动作。我们考虑了网络的性能和训练效率,并选择 3D ResNeXt [15]网络来获得视频模态的时空结构特征。ResNeXt 在普通卷积核的深度分割卷积之间提出了一种组卷积策略,并通过控制组的数量来实现两种策略之间的平衡,结构简单但性能强大。我们使用经过特征预处理的音频模态特征作为输入,表示为 X V X_V XV。我们通过这个网络获得了视频模态的高阶语义特征:
X ^ V = R e s