CFN-ESA: A Cross-Modal Fusion Network With Emotion-Shift Awareness for Dialogue Emotion Recognition-CSDN博客

本文链接：https://blog.csdn.net/ZZZ___bj/article/details/144295479

在这里插入图片描述

文章目录

CFN-ESA：用于对话情感识别的具有情感转换意识的跨模态融合网络
摘要
1. 介绍
2. 相关工作
- 2.1 对话中的情感识别
- 2.2 多头注意力网络
3. 方法
4. 训练目标

CFN-ESA：用于对话情感识别的具有情感转换意识的跨模态融合网络

摘要

对话中的多模态情感识别（ERC）越来越受到各领域研究界的关注。在本文中，我们提出了一种具有情感转移感知（CFNESA）的跨模态融合网络。现有的方法平等地使用每种模态，但不区分这些模式中的情绪信息量，这使得很难从多模态数据中充分提取互补信息。为了解决这一问题，在CFN-ESA中，我们将文本模式作为情感信息的主要来源，而将视觉和声学模式作为次要来源。此外，大多数多模态ERC模型忽略了情绪转移信息，过度关注了上下文信息，导致了情绪转移情景下的情绪识别失败。我们精心设计了一个情绪转换模块来解决这一挑战。CFNESA主要由单模态编码器（RUME）、跨模态编码器（ACME）和情绪转移模块（LESM）组成。RUME用于提取对话层次的情境情绪线索，同时收集模式之间的数据分布；利用ACME进行以文本形态为中心的多模态交互；LESM用于模拟情绪转移和捕捉情绪转移信息，从而指导主要任务的学习。实验结果表明，CFN-ESA可以有效地提高ERC的性能，并显著优于目前最先进的模型。

1. 介绍

近年来，多模态学习引起了学术界和产业界的关注，并在生物识别学、信息检索、自动驾驶和情绪识别等多个领域得到了广泛的应用。随着技术的进步，丰富的多模态数据可以更方便地用于研究目的。在现实生活中，多模态数据主要包含转录文本、视觉图像或视频、声学语音三个内容。多模态学习其中最突出的分支之一是多模态融合，其主要目的是利用来自多种模式的信息的有机组合来协作实现最终的下游任务。因此，如何充分提取模态间互补信息成为多模态融合领域的一个巨大挑战。

会话中的情绪识别（ERC）的目标是理解和分析会话中的每一个话语，并呈现出相应的情绪。这项任务由于其广阔的应用前景，如智能机器人中的人机交互和社交媒体中的意见挖掘，最近引起了自然语言处理、计算机视觉和多模态学习领域的研究人员的广泛兴趣。以前的大多数ERC模型都是基于单一模式，如文本[1]-[5]和语音[6]-[9]。然而，人类的情感往往是难以捉摸的。如图1所示，文本单模式在某些场景下可能无法正确识别情绪，例如，文本直接表达的情绪是中性的，但相应的面部表情实际上是另一种情绪，比如愤怒。从这个例子中可以看出，该模型不能仅用一种单一的方式就能很好地理解和传达人类的情感。

在这里插入图片描述
随着多模态越来越接近现实世界的应用场景，多模态ERC已经获得了大量的研究。单模态中包含的信息可能不够充分或不够具有代表性，而基于多模态的模型可以弥补单模态方法的缺点，从而提高现有系统的性能和鲁棒性。同时，多模态ERC更符合人们表达情绪的多种方式（如语言、声音和面部表情）。与传统的单模态[1]、[2]、[5]和非会话[10]-[12]场景中的情感计算任务不同，由于多种模态和会话情境之间的复杂关系，多模态ERC面临着更严峻的挑战。

虽然以往的研究取得了令人印象深刻的进展，但这些方法要么忽略了多模态信息之间的关联，要么忽略建模多模态。有些方法是[13]-[16]直接连接多模态数据，而不考虑多种模态之间的关联。此外，每个模态本身都存在一定数量的噪声，再加上多模态数据的异质性差距[17]，可能会引起更多的噪声。虽然一些方法[18]-[21]对多模态数据进行关联建模，但它们的建模风格存在缺陷。例如，这些方法假设每种方式对话语的情感表达的贡献相等，但事实并非如此。现存的多模态ERC研究[20]，[22]的发现表明，与视觉和声学模式相比，文本模式包含更多有价值的情感信息。因此，在进行多模态交互时，充分利用每个模态可能不能充分提取多模态互补信息，这使得很难有效地最大化模型的性能。针对上述问题，我们构建了一个新的会话情绪识别网络，以有效地建模与多模态数据的关联。我们将视觉和声学模式视为辅助信息的来源，用来补充文本信息的表示；反过来，文本信息被用来增强视觉和声学表征。

现存的研究人员[16]，[23]，[24]已经表明，情绪转移可以限制情绪识别的表现，这是ERC面临的挑战之一。情绪转移描述了两种话语中情绪的变化。更具体地说，如果两个话语从一种情绪转移到另一种情绪，即两个话语的情绪不同，那么情绪就发生了变化；相反，如果两个话语的情绪是相同的，那么情绪的变化就不会发生。上下文建模本质上依赖于聚合周围话语中的情感线索，但往往倾向于在整个对话中保持情绪的一致性。然而，这种固有的倾向可能会无意中破坏该模型在情绪发生变化的情况下准确识别情绪的能力，从而强调了需要先进的策略来解决ERC的这一关键方面。现有的方法没有考虑情绪转移信息，而过于关注上下文信息，导致了上下文建模和自我建模之间的不平衡。换句话说，当前语句的自我信息（以及其他两种模态的补充信息）往往容易被忽视。为了缓解这一问题，我们设计了一种情绪转移模块，将其作为 ERC 的辅助任务。该模块通过引入情绪转移因素来指导 ERC 主任务，优化语句的情绪表达，从而提升对情绪转移的处理能力。

综上所述，我们提出了一种具有情绪转移意识的跨模态融合网络（CFN-ESA）。我们的CFN-ESA可以有效地提取多模态互补信息，它主要由三个成分组成，即基于递归的单模态编码器（RUME）、基于注意力的跨模态编码器（ACME）和基于标签的情绪转移模块（LESM）。RUME可以通过捕获模块内上下文情绪线索，同时通过共享参数缩小多模态数据的异质性差距。ACME将文本形态作为情感信息的主要来源，将另外两种形态作为次要来源，并利用多头注意网络来充分建模多模态交互。采用LESM作为ERC的辅助任务，明确地建模情绪转移并提取情绪转移信息，从而使主要任务能够隐式地减少情绪转移情景下的模态内上下文建模。利用两个公共基准数据集，MELD和IEMOCAP，进行了大量的实验，以证明所提出的CFN-ESA的有效性。我们还探讨了不同网络设置下的影响，并测试了CFN-ESA中每个模块的性能。简而言之，这项工作的主要贡献包括：

提出了一种新的多模态ERC方法CFN-ESA，该方法主要由单模态编码器（RUME）、跨模态编码器（ACME）和情绪转移模块（LESM）组成。
RUME可以在缓解上下文信息的同时提取模态内上下文信息；ACME可以建模多模态交互，充分捕获模态间互补信息。
利用LESM作为模型的辅助任务来提取情绪转移信息，进而指导学习的主要任务。
我们在两个数据集上进行了大量的实验，结果证明了CFN-ESA优于所有基线。

2. 相关工作

2.1 对话中的情感识别

随着人们对对话系统研究的兴趣日益浓厚，对话中情绪的识别已成为研究的热点。以往的ERC方法大多是基于文本模态，主要采用门控递归单元（GRU）、长记忆和短期记忆（LSTM）网络和图神经网络（GNN）来对上下文进行建模。AGHMN [1]主要由层级记忆网络（HMN）和双向门控循环单元（BiGRU），其中使用HMN提取历史话语之间的交互式信息，使用BiGRU利用注意权重对短期和长期记忆进行总结。DialogXL [2]将预训练好的语言模型XLNet [25]应用于ERC任务。为了实现这一目的，DialogXL处理了增强的记忆和具有对话意识的自我注意的说话人依赖。I-GCN [3]利用图卷积网络提取话语的语义联想信息和对话的时间序列信息。该方法首先利用图结构来表示不同时间的对话，然后采用增量图结构来模拟动态对话的过程。CauAIN [4]由两种主要的因果意识交互作用组成，即因果线索检索和因果话语回溯，它们引入了常识性知识作为在对话中检测情绪原因的线索，明确地建模了说话者内部和说话者之间的依赖关系。CoG-BART [5]是一种同时采用对比学习和生成模型的ERC方法，以BART [26]为骨干模型，通过对比损失和生成损失来增强话语的情感表达。

基于声学形态的方法通常被称为语音情绪识别（SER）。ISNet [6]是一个个体标准化网络，采用自动生成的个体标准化基准来处理SER中的个体间情绪混淆问题。MTL-AUG [7]是一种半监督多任务学习框架，采用了基于语音的增强类型，同时将增强分类和无监督重建作为辅助任务，使多任务训练在不需要元标记的情况下实现通用表示的学习。BAT [8]将混合谱图分成块，并通过将这些块与令牌结合来计算自我注意，同时利用交叉块注意机制来促进块间的信息交互。为了更深入地了解言语中所表达的情绪，Huang等人[27]，[28]对情绪变化的检测进行了深入的研究。这些研究为情绪变化提供了见解，并可能启发ERC领域的未来工作。此外，虽然存在一些基于视觉模态的方法[29]-[31]被称为面部表情识别，但它们大多在ERC任务的范围之外。

最近有一些多模式的ERC的成果。MMGCN [18]利用GNN来捕获上下文和模态交互信息，这不仅弥补了以前的方法无法利用多模态依赖的缺点，而且还有效地将说话者的信息合并到ERC中。DialogueTRM [22]使用分层Transformer来管理每个模式中不同的上下文偏好，并设计多粒度交互融合来学习多种模式的不同贡献。MetaDrop [19]提出了一种二元包含或drop决策机制，以学习自适应融合路径，同时提取多模态依赖和上下文关系。HU-Dialogue [21] 为 ERC 引入了分层不确定性，其中包含一个基于正则化的注意力模块，该模块受到源自适应噪声的扰动来模拟上下文层面的不确定性。MM-DFN [20]利用一个基于图的动态融合模块来跟踪各种语义空间中的会话上下文，并增强模式之间的互补性。COGMEN [32]是一种多模态ERC模型，它使用GNN体系结构来建模对话中的局部依赖关系和全局上下文，有效地提高了模型的性能。UniMSE [33]通过应用T5 [34]将声学和视觉特征与文本特征相结合，并进行多模态对比学习，获得不同的多模态表示。受对话中情绪起伏现象的启发，Agarwal等人[35]提出了一种情绪转换模块来提高多模态ERC的表现。我们观察到，他们提出的方法与本文中的方法相似的研究轨迹一致。一般来说，与传统的单模态和非会话设置下的情感计算任务不同，多模态ERC由于多种模态和对话情境之间的复杂关系而更具挑战性。

2.2 多头注意力网络

Vaswani等人[36]提出了用于机器翻译任务的Transformer架构，取得了优异的性能。从那时起，Transformer的多头注意力（MHA）网络被广泛应用于自然语言处理、计算机视觉和多模态学习等领域。MulT [37]采用多个注意网络来建模具有不同时间步长的多模态序列之间的交互作用，服务于多模态情绪分析的目的。AuxFormer[38]利用基于多头注意的主视听融合网络实现多模态对齐和融合，而利用两个辅助网络使情绪信息流向主网络。Wagner等人[39]通过大量的实验发现，与其他基于架构的方法相比，基于变压器的语音情绪识别表现出更高的鲁棒性和通用性。ViT [40]将纯Transformer直接应用于图像序列补丁，在计算资源少的情况下取得了优异的效果。在BLIP- 2 [41]引导下，从冻结的预训练图像编码器和冻结的大型语言模型中进行视觉语言预训练，并通过轻量级查询转换器来弥补模态差距。LLaVA [42]通过连接一个视觉编码器和一个大型语言模型，实现了通用的视觉语言理解，并促进了未来对视觉训练的后续研究。本文采用MHA网络提取多模态互补信息，即利用它们构建基于注意力的跨模态编码器（ACME）。在这里，首先定义了缩放的点积注意力：
在这里插入图片描述
这可以提高缩放的点积注意力的稳定性和性能。区别在于，不同的头使用不同的查询、键和值矩阵。MHA可以计算如下：

3. 方法

本节是对我们所提出的模型的详细描述。如图2所示，CFN-ESA主要由基于循环的单模态编码器（单模态编码）、基于注意力的跨模态编码器（跨模态编码）、情绪分类器（分类器）和基于标签的情绪转移模块（情绪转移优化）组成。
在这里插入图片描述

3.1 问题定义

在这里插入图片描述

3.2 基于循环的单模态编码器

为了提取对话级的上下文情绪线索，我们采用基于循环的单模态编码器（RUME）对三种模式中的话语进行编码。受Transformer[36]结构的启发，我们在RUME中添加了全连接网络和残差操作，以提高循环神经网络（RNN）的表达性和稳定性。我们的单模态编码器如图3所示。具体来说，RUME的结构可以形式化为：
在这里插入图片描述

请注意，为了使每个模态话语的数据分布尽可能接近（即，为了缓解多模态数据的异质性差距问题），我们使用了具有共享参数的单模态编码器。

3.3 基于注意力的跨模态编码器

多模态ERC可以弥补单模态方法中信息的不足。在这项工作中，我们设计了基于注意力的跨模态编码器（ACME）来从多模态情绪数据中提取互补信息。如图4所示，我们从Transformer的结构中汲取灵感，主要采用注意力网络层、前馈网络层和残差操作来构造我们的ACME。多模态ERC的研究表明，视觉和声学模式中嵌入的情绪信息量低于文本模式，因此这些模型中对情绪的表达是有限的。基于这一假设，我们将视觉特征和声学特征作为互补信息，来补充文本特征的情感表达。反过来，话语的文本特征被用来增强视觉和声学的表征。此外，在RUME中，RNN专注于话语的全局上下文信息是很费力的。因此，在进行跨模态交互之前，我们采用自注意力层来捕捉全局情境情绪线索。所设计的ACME由以下三个阶段组成。

(1) 增强话语的全局上下文感知。将三种模式的特征矩阵Xm作为三个MHA网络m ∈ {T, V, A}的输入，直接输出 $X^m_s$ 与输入 $X^m$ 求和（即残差运算），得到特征矩阵 $X^m_{sr}$ 。这个过程可以用以下等式表示为：
在这里插入图片描述
(2) 进行跨模态交互建模。将上述结果作为成对的四个MHA网络的输入，并更新每个模态的信息。下面，我们分别描述每个模态的信息更新。

对于文本模态中的信息更新，主要有两个MHA网络和来自三种模态的特征矩阵。具体来说，在一个MHA网络中，使用文本特征矩阵 $X^T_{sr}$ 作为查询Q，使用视觉特征矩阵 $X^V_{sr}$ 作为键K和值V，输出的 $X_c^{T_v}$ 是具有视觉信息的文本特征矩阵；相似地，在另一个MHA网络中，使用文本特征矩阵 $X^T_{sr}$ 作为查询Q，使用音频特征矩阵 $X^A_{sr}$ 作为键K和值V，输出的 $X_c^{T_A}$ 是具有音频信息的文本特征矩阵；我们进一步将 $X_c^{T_v}$ 和 $X_c^{T_A}$ 连接得到 $X^T_c$ ，同时应用残差运算添加 $X^T$ 、 $X^T_{sr}$ 和 $X^T_c$ ，得到新的文本特征矩阵 $X^T_{cr}$ 。上述过程可形式化为：
在这里插入图片描述
视觉模态中的信息更新主要采用一种注意网络和两种模态的特征矩阵。具体来说，我们以视觉特征矩阵 $X^V_{sr}$ 为查询Q，文本特征矩阵 $X^T_{sr}$ 为键K和值V，得到具有文本信息增强的视觉特征矩阵 $X_c^{V_t}$ ；类似于文本信息更新过程，利用残差运算添加 $X^V$ 、 $X^V_{sr}$ 和 $X^V_c$ ，得到新的视觉特征矩阵 $X^V_{cr}$ 。上述过程可形式化为：
在这里插入图片描述
声学模态的信息更新过程与视觉模态的信息更新过程相似，可以用下式表示：

在这里插入图片描述
(3)提高模型的表达性和稳定性。我们将 $X^m_{cr}$ 作为三个前馈网络层的输入，得到 $X^m_f$ ，同时利用残差运算求和 $X^m$ 、 $X^m_{cr}$ 、 $X^m_f$ ，得到特征矩阵 $X_m^{fr}$ 。上述过程由等式表示如下：

3.4 情感分类器

经过多层RUME和ACME编码，我们获得最终的特征矩阵 $H^m$ ，m∈{T，V，A}，然后连接获得融合特征矩阵h。最后，H的特征维度转换为|E|（情绪的数量）情绪分类器，因此我们获得预测情感e‘i（e’i∈E）。该工作流程可表述如下：
在这里插入图片描述

3.5 基于标签的情绪转移模块

为了提取情绪转移信息，增强话语的情绪表达，我们引入了基于标签的情绪转移模块（LESM）来明确地建模话语之间的情绪转移。LESM由三个主要步骤组成，首先构造情绪转移的概率张量，然后生成情绪转移的标签矩阵，最后利用情绪转移的损失进行训练。 LESM 被用作辅助任务，用以引导主任务的学习，从而使主任务在情绪转换场景中减少模态内的上下文建模，而更多地关注跨模态的交互建模。

3.5.1 情感转移概率

受SimCSE [43]的启发，我们使用两个参数共享的ACMEs来生成两个具有不同表示但情绪语义一致的特征矩阵。换句话说，将RUME的输出Xm（m∈{T，V，A}）作为两个参数共享的ACMEs的输入，然后得到两个融合的特征矩阵 H 和 H’ 。其中，H∈R|U|×|F|，H‘∈R|U|×|F|，|U|是会话中的话语数，|F|是H或H’的特征维度。我们将H中每个话语和H‘中所有话语的特征向量连接起来，构造|U|×|U|×2|F|维情绪移位概率张量T。如果将特征维数T的特征维数映射到1，则可以得到两个话语之间的情绪转移概率。

上述过程的一个例子如图5所示。具体来说，假设存在三个话语，对应的特征向量为x m 1，x m 2，x m 3（m∈{T，V，A}）。将这些特征向量作为两个参数共享acme的输入，得到融合的特征向量hi和h‘i（i=1,2,3），其中hi∈H和h’i∈H‘。然后，将h1与每个h‘i（即h’1、h‘2和h’3）连接起来；同样，将h2与每个h’i连接起来；对于h3，采用相同的连接操作。最后，得到了3×3×2||维情绪移概率张量T123。

在这里插入图片描述

3.5.2 情感转移标签

我们基于数据集的真实情绪标签来标注话语之间的情绪转移状态。具体地说，如果两个话语的真实情绪是相同的，那么我们将它们的转移状态标注为0，这意味着情绪转移没有发生；相反，如果他们的真实情绪不同，那么我们将转移状态标注为1，这意味着情绪转移已经发生了。通过上述操作，我们得到了|U|×|U|维的情绪移位标签矩阵。

3.5.3 情感转移损失

在构建了情绪转移概率和标签后，我们需要定义相应的训练情绪转移损失。LESM是一项二元分类的辅助任务，旨在正确区分话语之间的情绪转移状态。通过这种方式，提示模型捕捉情绪转移信息，从而引导其减弱对上下文信息的关注。首先，为了得到预测的情绪移位状态s‘ij（s’ij∈{0,1}），我们将具有全连通层的概率张量T的特征维数转换为2。上述过程如下：
在这里插入图片描述
所定义的情绪转移损失为：