2024年SCI 1区：IEEE TNNLS——DER-GCN：对话和事件关系-感知多模态对话情绪识别的图卷积神经网络

ZZZ___bj

已于 2025-03-31 09:42:23 修改

阅读量1.1k

点赞数 13

分类专栏：论文对话情感识别文章标签： cnn 人工智能神经网络

于 2025-03-31 09:39:56 首次发布

本文链接：https://blog.csdn.net/ZZZ___bj/article/details/146550624

版权

论文同时被 2 个专栏收录

40 篇文章

订阅专栏

对话情感识别

25 篇文章

订阅专栏

在这里插入图片描述

摘要

随着深度学习（DL）的不断发展，多模态对话情绪识别（MDER）近年来受到了广泛的研究关注，也是深度学习的一个重要分支。MDER旨在识别不同模态中的情感信息，例如，文本、视频和音频，以及不同的对话场景。然而，现有的研究主要集中在上下文语义信息和说话者之间的对话关系的建模上，而忽略了事件关系对情绪的影响。为了解决上述问题，我们提出了一种新的对话和事件关系感知图卷积神经网络（DERGCN）的多模态情绪识别方法。它模拟了说话者之间的对话关系，并捕获了潜在的事件关系信息。具体来说，我们构建了一个加权多关系图，以同时捕获对话中说话者和事件关系之间的依赖关系。此外，我们还引入了一种自监督掩码图自动编码器（SMGAE）来提高特征和结构的融合表示能力。接下来，我们设计了一种新的多信息transformer（MIT）来捕获不同关系之间的相关性，它可以更好地为关系之间提供多元信息的融合。最后，我们提出了一种基于对比学习的损失优化策略，以提高少数类特征的表示学习能力。我们对基准数据集、交互式情绪（IEMOCAP）和多模态情绪线数据集（MELD）进行了广泛的实验，验证了DER-GCN模型的有效性。结果表明，我们的模型显著提高了情绪识别的平均准确率和f1值。

1. 介绍

1.1 动机

多模态对话情绪识别（MDER）的任务是识别说话者在文本、视频和音频等不同模态下的情绪变化。近几十年来，由于MDER在一些新兴的APP场景中的应用（APP），对负面情绪的识别引起了社交媒体的研究关注，如Meta和在线购物智能推荐系统[2]和聊天机器人[3]的微博[1]。此外，在网上购物时，应用程序会根据用户的喜好推荐最有趣的产品。

然而，MDER比句子水平的情绪识别或单模态情绪识别任务更具挑战性，因为情绪的变化通常由一系列有意义的内部和外部因素决定。具体来说，在对话过程中，说话者的情绪不仅受到由上下文信息组成的内部因素的影响，还受到由对话和事件关系组成的外部因素（如实体、位置、关键词等）的影响。对话和事件关系的细节在补充材料中提供。例如，当演讲者在社交媒体上谈论一个敏感的话题时，他们通常会更含蓄和暗示性地表达自己的情绪。因此，可以利用事件来加强说话者之间的对话语义关系，从而弥补显式语义特征的缺乏。然而，如何综合考虑内外因素对情绪识别的影响仍是一个有待解决的问题。此外，在MDER中，由于标记成本高，数据分布表现出长尾状态。这导致该模型在识别少数类情绪方面的效率较低。

目前主流的MDER方法利用递归神经网络（RNNs）[4]、transformer[5]和图神经网络（GNNs）[6]分别对上下文的语义信息和说话者之间的对话关系进行建模。为了更好地整合上下文语义信息，我们采用了基于transformer的方法，但仍然忽略了外部因素对情绪识别的影响。为了考虑内部和外部因素对情绪识别的影响，许多研究者已经开始采用GNN来对MDER进行建模。虽然上述方法在情绪识别方面取得了良好的效果，但它们都是忽略外部因素的影响(即，事件关系）。然而，事件关系也对说话者的情绪影响很大，说话者在讨论同一事件时通常表现出相同的情绪。因此，对话框中的事件关系进行建模，有利于获得更好的情绪类别特征嵌入。如图1(b)所示，是一个只考虑说话者之间的对话关系的图。其情绪类别在特征嵌入中有许多重叠的区域，每个情绪类别之间没有明确的类别边界，如图1(d)所示。图1©是一个综合考虑了说话者之间的交互关系和事件关系的图。其情绪类别的特征嵌入具有更好的辨别能力，如图1(e)所示。因此，有必要将事件关系作为MDER体系结构设计的起点。

在这里插入图片描述

为了解决上述问题，我们提出了一种新的对话和事件关系感知图卷积神经网络（DER-GCN）用于多模态情绪识别架构。DER-GCN主要包括数据预处理、特征提取与融合、掩码图表示学习、多关系信息聚合、平衡采样策略和情绪分类六个模块。首先，我们使用稳健优化的BERT方法（RoBERTa）[7]、3D卷积神经网络（3D-CNN）[8]和基于双向长短期记忆（Bi-LSTM）的编码器[9]来获得三种模式的嵌入表示：文本、视频和音频。其次，我们使用双向门控循环单元（Bi-GRU）进行特征提取，使用Doc2EDAG [10]进行事件提取，以加强说话者之间的对话关系。然后，我们设计了一种新的跨模态特征融合方法来学习不同模态之间的互补语义信息。具体来说，我们使用跨模态注意来学习不同模态的语义信息之间的差异。平均池化操作用于学习各模态的全局信息，分别指导模态间和模态内信息聚合。第三，我们设计了一个自监督掩码图自动编码器（SMGAE）对对话和事件之间的相关性进行建模。与之前的工作[11]只对图中的节点进行掩码重建不同，SMGAE同时对一些节点和边进行掩模重建。第四，我们设计了 多信息transformer （MIT），以更好地融合关系之间的多元信息，并捕获不同关系之间的相关性。MIT是一种过滤不重要关系信息的注意力机制，它融合以获得更好的嵌入表示。第五，我们提出了一个基于对比学习的损失优化函数来缓解MDER中的长尾效应，该函数平衡了模型训练过程中各情绪类别的比例。最后，我们使用了一个由多层感知器（MLP）构建的情绪分类器来输出最终的情绪类别。

在这里插入图片描述

1.2 贡献

因此，MDER应该将说话者之间的对话和对话中的事件关系作为模型设计的起点。受上述分析的启发，我们提出了一种新的DER-GCN用于多模态情绪识别，以学习更好的情绪特征嵌入。本文的主要贡献总结如下：

（1）提出了一种新的对话和事件关系感知情感表征学习架构，并命名为DER-GCN。DER-GCN可以实现跨模态特征融合，解决数据分布不平衡问题，学习更多有区别的情绪类边界。
（2）提出了一种新的自监督图表示学习框架SMGAE。SMGAE增强了节点的特征表示能力，优化了图的结构表示，具有较强的抗化能力。
（3）实现了一种新的加权关系感知多层子图信息聚合方法，并命名为MIT。利用MIT来学习信息聚合中不同关系的重要性，以融合以获得更具鉴别性的特征嵌入。
（4）最后，在多模态情绪线数据集（MELD）和交互式情绪二元运动捕获（映射）两个流行的基准数据集上进行了广泛的实验，结果表明DER-GCN在权重精度（WA）和F1值方面优于现有的比较算法。

2. 相关工作

2.1 对话中的情感识别

MDER是一个跨学科的研究领域，已经引起了认知科学、心理学等研究者的广泛关注。现有的MDER研究主要包括基于RNN [12]的情绪识别、基于GNN [13]的情绪识别和基于transformer[5]的情绪识别。RNN主要通过建模长期上下文依赖关系来提取上下文语义信息。GNNs模型是对话的动态交互过程，主要依赖于图结构的固有属性来建模说话者之间的依赖关系。transformer主要利用注意力机制来实现跨模态特征融合来捕获模态间的不同语义信息。

在基于RNN的多模态情绪识别研究中，Wang等人[14]进行了双序列LSTM（DS-LSTM），该研究使用双流LSTM同时提取Mei-Frequency中的上下文特征。DS-LSTM综合考虑了不同时间和频率的上下文特征，获得了更好的情绪识别效果。Li等人[15]创建了基于注意力的双向LSTM RNN（A-BiLSTM RNNs）。该方法结合自注意机制和LSTM相结合，学习具有时间维度的多模态特征。虽然基于RNN的方法在基于上下文语义建模的情绪识别任务中取得了良好的效果，但它们仍然忽略了外部因素（如对话关系和事件关系）的影响。

在基于transformer的多模态情感识别研究中，Huang等[16]采用了多模态transformer融合（MTF），该融合利用多头注意力机制获得了多模态情绪的中间特征表征。然后，利用一种自我注意力机制来捕获上下文中的长期依赖关系。基于transformer的方法可以提取更丰富的上下文语义信息，但仍然忽略了外部因素对情绪识别的影响。

在基于GNN的多模态情绪识别研究中，Sheng等人进行了总结和聚合图推理网络（SumAgagGIN），该网络通过构建异构GNN来捕获短语之间可区分的细粒度特征。虽然基于gnn的方法考虑了对话关系，但它仍然忽略了事件关系对MDER的影响。

2.2 transformer用于对话生成

近年来，对话生成的任务也开始受到广泛的关注。Huang等人[18]提出了角色自适应注意（PAA），该方法使用一种动态掩码注意力机制来自适应地减少上下文信息中的冗余信息。例如，对话生成技术可用于医疗保健，以帮助患者访问健康信息。Zheng等人[19]提出了一种预训练的个性化对话模型，该模型使用一个大规模的预训练模型来初始化模型权重，并在解码器中引入注意力，动态提取上下文信息和角色信息。Zeng和Nie [20]引入了一种条件感知transformer来为不同位置的单词生成概率偏差。

2.3 掩码自监督图学习

掩码自监督图表示学习，可以自动从原始数据中学习更深层的特征表示，而不使用大量的标记数据，已经被越来越多的研究人员使用。目前关于掩码自监督图表示学习的主流研究主要集中在节点和边水平上的掩码和数据重建上。

在基于节点级掩码的自监督学习中，Liu等人[21]进行了时空图神经网络（STG-Net）研究，其中基于边加权策略的掩码图节点。GCN用于重构上下文特征，以获得更好的数据表示。Wang等人[23]创建了HeCo，它通过使用视图掩码机制来学习节点的高级嵌入表示。此外，HeCo还引入了一种对比学习策略，进一步提高了模型学习特征表示的能力。

在基于边级掩码的自监督学习中，Pan等人[22]进行了对抗性图嵌入（AGE），该方法使用对抗性正则化图自编码器（ARGA）和对抗性正则化变分图自编码器（ARVGA）重建了图的拓扑结构。AGE以一种自监督的方式进行训练，以学习数据的基本分布规律。

上述方法只考虑了结构掩码重构，而忽略了特征掩码重构。

2.3 基于对比学习的平衡优化

MDER中的数据集存在数据不平衡，这使得广泛用于分类的交叉熵损失函数不再适用。然而，对比学习可以通过不断缩小正样本之间的差距来学习不同类之间可区分的类边界信息。它不断扩大正负样本[24]之间的差距。因此，在实际问题中解决常用的数据不平衡问题。

Cai等人[25]应用了异构图对比学习（HGCL）网络，该网络通过最大化局部图节点之间的交互信息与完整图节点的全局表示，得到每个节点的嵌入式表示。HGCL可以从多元异构数据中学习到更好的类边界信息。Peng等人（[26]）提出了监督对比学习（SCL），将输入样本与其他实例和带有负样本的输入样本进行比较，这些负样本是由soft Brownian offset方法生成的，以增强特征表示能力。 SCL可以通过不断扩大正负样本之间的差异，有效地缓解数据分布不平衡的问题。

3. 准备工作

在本节中，我们将定义多模态情绪识别任务，并简要介绍多模态情感数据集中文本、音频和视频三种模式的预处理方法。他们的处理过程如下： 1)单词嵌入-为了获得具有丰富语义信息的单词向量，我们将使用RoBERTa模型[7]获得每个单词的向量表示；2)视觉特征提取，捕捉特征的面部表情变化和手势变化在每帧的视频，我们将使用3D-CNN模型[27]进行特征提取；3)音频特征提取——为了捕捉能够区分不同说话者的语音特征，我们将使用编码器的结构来提取声音信号的特征。此外，为了捕获说话者在对话过程中讨论的主题事件的语义信息，我们还对文本进行了事件提取。

3.1 问题定义

对于MDER的任务，由于参与对话的说话者的数量N（N≥2）不是固定的，我们假设有N个说话者参与了一个对话，并分别表示为P = {P1，P2，……，PN }。在对话过程中，说话者的一系列话语按时间顺序排列，可以表示为U = {u1，u2，……，uT }，其中T表示话语总数，每个形式都有三种模态，即文本(t)、音频(a)和视觉(v)。本文的任务是根据说话者的言语、声音和表情来预测说话者在当前时刻的情绪类别q。情绪预测任务的定义如下：
在这里插入图片描述
其中，eq表示第q次话语的情绪，K表示历史语境的窗口大小。在本文中，我们设置了K = 10。

3.1 多模态特征提取

MDER任务的输入有三个模态特征：文本、音频和视频。对于每一个话语，我们提取文本、音频和视频特征。具体的提取过程如下： 1)单词嵌入——为了获得具有丰富语义信息的单词向量，我们将使用RoBERTa模型[7]来获得每个单词的向量表示；2)音频特征提取——为了捕获能够区分不同说话者的语音特征，我们将使用该结构的编码器，以提取声音信号的特征；和3)视觉特征提取——为了捕捉视频每一帧的面部表情变化和手势变化的特征，我们使用3D-CNN模型[8]进行特征提取。此外，为了捕获说话者在对话过程中所讨论的主题事件的语义信息，我们还对文本进行了事件提取。

4. 方法

4.1 DER-GCN结构设计

在本节中，我们将举例说明组成DER-GCN的六个组件，如图2所示。DER-GCN的结构如下。

1）序列建模和跨模态特征融合：对于输入的文本、视频和音频模态特征，DER-GCN将它们输入到Bi-GRU中，提取上下文语义信息。此外，为了捕捉三种模态中具有最强情绪特征的区域，我们设计了一种跨模态注意力机制，用于特征提取和融合互补的语义信息。
2）多关系情绪交互图：与当前主流算法忽略事件关系对情绪边界学习的影响不同，我们构建了一个包含事件和说话者的多关系GNN，从而增强了模型的特征表示能力。
3）网络掩码图自动编码器（MGAE）：为了提高GCN中节点特征和边结构的融合表示能力，我们设计了一个MGAE。MGAE通过随机掩码和重建节点和边，提高了GCN的表达能力，缓解了类分布不平衡的问题。
4）关系间的信息聚合：为了指导DER-GCN更好地执行多关系GNN的信息聚合，我们设计了一种多关系信息融合transformer，它可以有效地融合由不同关系组成的子图中的语义信息，学习更好的嵌入表示。
5）对比学习：多模态情绪识别领域常用的基准数据集存在类分布不平衡的问题。我们引入了一种对比学习机制来学习更多有区别的类边界信息。
6）情绪分类器：为了使DER-GCN在反向传播过程中提供更多的梯度信息，并促进模型在情绪分类过程中得到充分的训练，我们构建了一个具有残差连接的线性层作为DER-GCN的情绪分类器。

4.1.1 序列建模和跨模态特征融合

说话者在当前时刻的情绪变化不仅与t次的话语有关，而且与t−1前和t + 1后的上下文话语有关。然而，捕获包含在视频、音频和文本这三种模式中的上下文语义信息是一项具有挑战性的任务。在本文中，我们使用Bi-GRU对这三种模态的长期依赖关系进行建模，从而使该模型能够更准确地理解当前t时刻说话者的情绪变化。GRU的公式定义如下：

在这里插入图片描述
其中zt表示更新门，用于选择当前时间t需要保留的上下文信息，以便在t−1第一次更新隐藏层的状态。rt表示重置门，用于忘记当前时刻对话中不重要的上下文信息。ut和ht分别表示输入的单模态特征向量和存储上下文信息的隐藏层。h˜t表示候选对象的隐藏层状态。Wz、Wr和wh˜t是可以在GRU中学习的参数。γ∈{t、v、a}分别表示文本、视频和音频。⊙为哈达玛积。

Bi-GRU包含从正向信息和反向信息中提取的上下文语义信息。该公式的定义如下：
在这里插入图片描述
其中，→h γ t为正向提取的上下文语义信息，←h γ t为反向提取的上下文信息，δt表示通过在第t个时刻被正向和反向gru提取的顺序上下文信息，而ψγ是由前一个T时刻的所有上下文信息组成的。

为了实现三种模态之间的信息交互和融合，我们提出了一种跨模态注意力机制，利用该机制以更细粒度的方式利用模态之间的交互，以提高模型的语义理解能力。

首先，我们对双gru处理后得到的三种模态的隐层特征向量进行了归一化处理。该公式的定义如下：
在这里插入图片描述
其中，ε γ =（1/√d γ）是三种模态的比例因子。n表示模态的维数，Hi j表示第i行和第j列的特征向量。

然后，为了更好地保存三种模态的语义信息，我们对Hi j γ进行了平均池化操作，公式定义如下：
在这里插入图片描述
其中，fpolion（·）表示平均池化操作。

接下来，我们对这三个模态特征进行融合操作，并使用tanh激活函数来获得它们的权重。该公式的定义如下：
在这里插入图片描述
其中，Wt、Wa、Wv、λa、λv、λt、bt、ba、bv是模型中可以学习到的网络参数。根据上述公式，我们可以得到归一化的注意力权重e ω γ∈{eω t，e ω a，e ω v }。该公式的定义如下：

最后，我们根据注意力权重得到三种模式融合后的特征表示ξ。该公式的定义如下：

在这里插入图片描述

4.1.2 加权的多重关系情感交互图

如图3所示，我们构建了一个多关系情感交互图，其中包括说话者和从事件中提取的多构元素之间的关系。特别地，我们构造了一个随时间变化的动态图结构。为了获取不同关系中包含的异构信息，我们构建了一个加权多关系情感交互图G = {V，ℵ，W，{ℜωr}Rr=1}来关联节点之间的关系。多关系情绪交互图中的节点集V是一系列融合的多模态特征向量。边ei j∈ℵ是由vi和vj之间的说话者关系或事件关系组成的。ωi j∈W是边缘ei j的权重。r∈ℜ是一个边关系。

在这里插入图片描述

由事件组成的不同关系的边缘ei j rE的公式定义如下：

在这里插入图片描述
其中，ArE表示多重关系图的邻接矩阵，其中行表示所有事件节点，其列表示属于关系rE的事件节点。为了获取相同关系下不同边之间的差异，我们将边的ei j rE的权重定义如下：

对于由说话者之间的关系组成的边ei j rS，如果说话者之间存在对话，我们将为它们连接一条边。否则，将不建立任何边。对于边的边权ωi，我们使用相似注意力机制对其进行赋值。首先，我们使用两个线性层来计算图中节点之间的相似性。该公式的定义如下：
在这里插入图片描述
其中，WϖrS 1和WϖrS 2为线性层中的可学习参数。b1和b2是线性层的偏差。⊕表示拼接，⊗表示点乘法。I i j∈{0,1}，I i j = 1表示节点i与节点j之间存在边连接，I i j = 0表示节点i与节点j之间不存在边连接。

然后，我们利用注意力机制得到每条边的权重，公式定义如下：
在这里插入图片描述
其中，Mi是节点i的邻居节点集。ω i j 越大，节点间的相关性越高。

4.1.3 自监督掩码图自动编码器

为了提高GNN的特征和结构的联合表示能力，我们提出了一种SMGAE，它通过随机掩码和重建图中的节点和边来学习更好的特征嵌入表示。与最近只重建特征或结构的研究不同，我们同时重建特征和结构，以提高模型的泛化性能。

首先，我们对图中的一些节点和边进行采样，并使用掩码标记来掩码节点的特征向量和边权重。具体地说，我们使用伯努利分布生成一个0-1矩阵，然后对生成的具有原始特征矩阵和邻接矩阵的0-1矩阵进行点乘运算。通过上述操作，我们可以得到掩码节点集和边集。

掩码后的节点特征公式定义如下：
在这里插入图片描述
其中，VM表示掩蔽的节点集，ξ[M]表示掩蔽的多模态特征向量。

掩码边的公式定义如下：
在这里插入图片描述

其中，ϕM表示掩蔽边集，ei j [M]表示掩码边。

SMGAE的目标是利用少量的节点特征和边权值来重构掩蔽节点特征和邻接矩阵A。本文采用了一个图卷积神经网络（GCN）作为我们的编码器来聚合信息。该公式的定义如下：
在这里插入图片描述
其中，pϑ（ξi | ei [M]，ξˆi，eˆi）为生成的节点特征的期望值，pϑ（ei∼[M]|ei[M]，ξˆi，eˆi）为生成的边的期望值，e i M 这是一个未被掩码的边。ˆξi和eˆi分别表示通过编码器生成的节点特征和边。

在本文中，我们将使用GCN作为编码器来聚合信息，公式定义如下：
在这里插入图片描述
其中I i (t)是节点i在时刻t的特征向量表示。ℵri表示节点i在边关系r∈{ℜ}rr=1下的边集。e˜ik∈[0,1]，ci，r =∥Mi∥。Wζ (t)是一个可学习的网络参数。

在得到编码的特征向量后，我们需要使用解码器将潜在的特征分布映射到输入的ξ中。编码器的设计决定了特征恢复的能力，而简单的解码器（如mlp）的能力较差，无法恢复高级语义信息。在本文中，我们选择了具有较强解码能力的图注意网络（GAT）作为SMGAE的解码器，它可以利用周围的邻居信息来恢复输入特征，而不仅仅依赖于节点本身。

在编码和解码的过程中，我们不使用均方误差（MSE）。由于它容易受到向量维数和范数的影响，所以它采用了余弦相似度误差，这在训练过程中更加稳定，并指导了模型梯度的优化方向。该公式的定义如下：

在这里插入图片描述
其中，Zi = De−（1/2）A˜De−（1/2）ξi W是由GNN解码的特征向量。De是节点的度矩阵，A˜是节点的邻接矩阵。λ是一个超参数，∥W∥2F是模型的权重衰减系数，用于提高模型的鲁棒性。

在本文中，我们定义了Aˆ= De−（1/2）A˜De−（1/2），损失函数变为
在这里插入图片描述

其中，Atr（·）是矩阵的轨迹。然后，我们可以得到L到W的一阶偏导数，并将一阶偏导数的值设为0，得到最优网络参数W，公式定义如下：

在这里插入图片描述

对于边结构的重建，我们将使用正、负样本的对比损失来进行优化，其计算公式的定义如下：

在这里插入图片描述
其中，x+表示掩蔽边，D edge i表示该边属于第i个节点的概率。

为了更好地融合关系之间的多重信息，捕获不同关系之间的相关性，我们设计了一个MIT，通过多重信息融合来聚合不同关系之间的交互信息。在对多个子图的信息聚合进行建模后，DER-GCN的情绪分类效果将更加可信。

如图4所示，MIT是由具有多个交叉分支的transformer组成的，不同关系之间的交互信息将在MIT中进行双向传输。具体来说，我们首先将MGAE学习后得到的特征向量分别输入三个全连接层和一维卷积层，得到向量Q、K和V，公式定义如下：
在这里插入图片描述
其中，W为全连接层中的可学习网络参数，Conv为一维卷积运算。接下来，我们使用softmax函数得到由不同关系组成的特征向量的注意力分数如下：