DualGATs: Dual Graph Attention Networks for Emotion Recognition in Conversations

在这里插入图片描述
代码:https://github.com/BladeDancer957/DualGATs

DualGATs: Dual Graph Attention Networks for Emotion Recognition in Conversations

用于对话情绪识别的双图注意网络

摘要

捕捉复杂的语境依赖关系在对话中的情感识别(ERC)中起着至关重要的作用。以往的研究主要集中在说话者感知的语境建模上,而忽略了对话的话语结构。在本文中,我们引入了双图注意网络(DualGATs)来同时考虑话语结构和说话人感知语境的互补方面,旨在实现更精确的ERC。具体来说,我们设计了一个话语意识GAT(DisGAT)模块,通过分析话语间的话语依赖性来整合话语结构信息。此外,我们开发了一个说话者感知的GAT(SpkGAT)模块,通过考虑说话者在话语之间的依赖性来整合说话者感知的上下文信息。此外,我们还设计了一个交互模块,促进了DisGAT和SpkGAT模块的集成,使两个模块之间能够有效地交换相关信息。我们在四个数据集上广泛地评估了我们的方法,实验结果表明,我们提出的dualgat算法在大多数算法上超过了最先进的基线。

1. 介绍

随着社交媒体平台上对话数据的日益普及(Poria et al.,2019a),对话中的情感识别(ERC)已成为一个流行的研究课题(Poria等人,2019b)。它的目的是识别和跟踪每个话语的情绪状态。ERC在各种应用中扮演着至关重要的角色,包括社交媒体中的意见挖掘(Chatterjee et al.,2019b),以及能够分析用户情绪状态和生成情绪感知反应的情感对话系统(Zhou等人,2018年;Liu等人,2021年;Peng等人,2022年,2023年)。

然而,分析对话中的情绪也带来了重大挑战。与单独句子中的情感识别不同(Seyeditabari等人,2018年),ERC需要仔细考虑上下文依赖关系。以前的ERC方法主要集中于捕捉说话者或话语之间的时间依赖性,使说话者感知上下文的建模成为这些方法的核心(Majumder et al.,2019)。

为了整合感知说话者的上下文信息,已经提出了许多方法将对话建模为序列(茯苓等,2017;哈扎里卡等,2018a,b;焦等,2019;胡等,2021年;翁等,2022年)或图(石等,2019年;石谷等,2020年;沈等,2021b;李等,2022年)。基于序列的方法通过使用递归神经网络(RNN)对话语进行时间编码来捕获序列信息。Majumder等人在2019年设计了一个独立的门控循环单元(GRU)(Cho等人,2014年)来跟踪说话者的情绪状态。然而,这些基于序列的方法往往依赖于来自附近话语的有限信息来更新当前话语的表示这使得获取遥远的上下文信息并获得令人满意的表现具有挑战性。为了解决这一限制,基于图的方法同时聚合来自周围上下文话语的信息以使用图神经网络(GNNs)更新当前话语的表示(Kipf和Welling,2017)。这些方法通常将会话视为一个有向图,其中节点表示话语,边表示节点对之间的依赖链接,边标签表示依赖类型,如说话者或时间关系。

尽管基于序列和基于图的方法取得了显著的进展,但仍需要更多地强调明确的模型识别对话中的话语结构。话语结构,包括话语依赖链接和话语之间的类型,提供了一种直接的方法来捕捉对话中的基本信息流。如图1所示,高度相关的话语是基于话语依赖类型进行链接的,如背景、致谢和问答对。在对话中明确地结合这些话语依赖性,可以帮助模型捕捉到影响情绪的重要上下文线索。例如,让我们考虑图1中的第一个和第四个话语,其中在话语1和话语4之间存在一个承认类型的直接话语依赖链接。在话语1中,说话者A表达对葡萄酒的积极看法,表达一种喜悦。演讲者B在话语中强烈承认这一观点,指出酒的改善,也体验到一种喜悦的情绪。

在本文中,我们提出了一种新的双图注意力网络(DualGATs)方法,旨在通过同时考虑话语结构和说话人感知上下文的互补性来提高ERC的准确性。DualGATs层包括三个组件:话语感知GAT(DisGAT)、说话者感知GAT(SpkGAT)和一个交互模块。DisGAT模块被设计为显式地捕获交互式回合之间的结构级相关性。它通过从语篇解析器获得的语篇依赖图传播信息(Shi and Huang,2019),从而推断研究话语的结构性信息。另一方面,SpkGAT模块被隐式地建模,以捕获交互式回合之间的语义级相关性。它在基于说话者身份和话语的相对位置构建的说话者依赖图上进行信息传播,使说话者感知的上下文信息能够合并。此外,受之前工作的启发(Li et al.,2021b;Zhang et al.,2022),交互模块利用相互交叉关注来整合DisGAT和SpkGAT模块,促进了两个模块之间相关信息的交换。为了增强从DisGAT和SpkGAT模块中学习到的表示的互补性,并最小化重叠,交互模块还包括一个差分正则化器,这个正则化器鼓励这两个模块捕获不同的上下文信息

我们的贡献可以总结如下:

  • 我们提出DualGATs同时考虑话语结构和说话者感知语境的互补性,以获得更精确的ERC。

  • 我们引入了一个交互模块,通过相互交叉注意来交换SpkGAT和DisGAT模块之间的相关信息,其中提出了一个差分正则化器来诱导这两个模块捕获不同的上下文信息。

  • 我们在四个公开的ERC数据集上进行了广泛的实验。我们的实验结果表明,DualGATs在大多数测试数据集上优于最先进的基线,并进一步的分析验证了DualGATs中关键组件的有效性。

2. 相关工作

2.1 ERC

最近,由于公开的对话数据集的激增(Chen等人,2019;查特吉等人,2019a),ERC已日益成为一个流行的研究主题,包括文本模态和多模态(Zhang等人,2023;陈等人,2023)。在这里,我们特别关注前者。以往的研究主要集中在建模具有说话者感知能力的对话语境上。早期的方法依赖于RNN对话语进行临时编码,并跟踪说话者的状态(Jiao等人,2019年;Hu等人,2021年)。值得注意的是,BC-LSTM(Poria等人,2017年)使用长短期记忆网络(LSTMs)(霍克雷特和施米德胡伯,1997年),而ICON(哈扎里卡等人,2018年a)和CMN(哈扎里卡等人,2018年b)利用GRUs(Cho等人,2014年)和记忆网络。DialogueRNN(Majumder等人,2019)利用三个GRUs来捕捉话语之中的说话者、时间和情感依赖关系。然而,这些基于序列的方法往往依赖于来自附近话语的有限信息来更新当前话语的状态,这给捕获远程上下文信息带来了挑战。

为了对全局对话上下文进行建模,出现了各种基于图的方法(Zhang等人,2019年;Shen等人,2021a)。DialogueGCN(Ghosal et al.,2019)将每个对话视为一个全连接图,其中节点代表话语,边表示说话者和话语之间的时间依赖关系。RGAT(石井井等人,2020)引入了关系位置编码,明确地将位置信息合并到GNN中。DAG-ERC(Shen et al.,2021b)利用有向无环图来模拟说话者和话语之间的交互作用。此外,还有几种基于Transformer的方法(Vaswani et al.,2017)用于建模对话上下文。由于Transformer中的自注意模块可以看作是一个全连通图,因此我们将一些基于Transformer的方法视为基于图的方法。CoG-BART(Li et al.,2022)使用BART(Lewis et al.,2020)作为话语编码器,并合并了一个辅助响应生成任务,以增强模型处理上下文信息的能力。它还利用对比学习来提高对相似情绪的识别。CoMPM(Lee,2021)引入了一个预先训练好的记忆模块来考虑说话者的语言偏好。

由于人类并不总是用语言明确地表达他们的情绪,因此有很多方法可以将额外的信息合并到基于序列或图的方法中,以增强对内隐情绪的理解。例如,KET(钟等人,2019),KAITML(张等人,2020),和COS-MIC(Ghosal等人,2020)引入常识知识,TODKAT(朱等人,2021)集成主题信息,KI-Net(谢等人,2021)利用情感词汇,DialogueRole(Ong等人,2022年)整合话语角色信息,SKAIG(Li等人,2021a)融合了心理知识,而CauAIN(Zhao等人,2022)包括了情感原因信息来增强ERC。

尽管上述方法取得了重大进展,但仍需要更加注意对话话语结构在捕捉影响情绪的显著语境线索方面的重要性。然而,由于人类互动的复杂性,GNNs(Kipf和Welling,2017;Yu等人,2022)直接解析话语依赖图,如DisGCN(Sun等人,2021),可能不会在对话语结构不敏感的数据集上像预期的那样工作。因此我们不仅仅依赖于话语结构,而是将其整合到我们精心设计的DualGATs框架中,同时考虑话语结构和说话人感知语境的互补性。这种集成使我们能够通过利用这两个方面的好处来实现更准确的ERC。

2.2 话语分析

最近,深度序列模型已经成为对话话语解析的实用方法(Shi和Huang,2019;刘和陈,2021)。这些模型已经证明了它们在各种对话理解任务中的有效性,如multi-turn response selection(Jia et al.,2020),以及对话生成任务,包括对话总结(Chen和Yang,2021;Feng et al.,2021)。在我们的工作中,我们的DisGAT模块所依赖的话语结构也使用深度序列模型进行了解析(Shi和Huang,2019)。直观地利用话语依赖性,使模型能够更好地编码非结构化的人类对话,并专注于显著的话语,从而导致更准确的预测。

3 方法

我们从提供ERC任务的正式定义开始。会话表示为一系列话语( u i u_i ui s i s_i si)|i = 1,…,N,其中每个话语 u i u_i ui由说话者 s i s_i si说,N表示话语总数。ERC任务的目标是为对话中的每一个话语分配一个情绪标签 y i y_i yi∈y,如快乐、悲伤等,其中y代表一组可能的情绪标签。

所提出的DualGATs由三个主要组成部分组成:特征提取、DualGATs层和情绪预测。我们的DualGATs的总体架构如图2所示。
在这里插入图片描述
图2:我们的DualGATs的整体体系结构,包括三个基本模块: DisGAT、SpkGAT和交互。DisGAT通过利用话语之间的话语依赖性来传播话语结构信息,而SpkGAT则考虑说话人和时间依赖性传播说话者感知的上下文信息。交互模块最初使用了一个微分正则化器,以确保DisGAT和SpkGAT模块捕获不同的上下文信息。随后,它利用相互交叉注意力来集成DisGAT和SpkGAT模块,促进它们之间相关信息的交换。在图中,表示了话语依赖类型的问答对(QAP)和解释(Exp)。

3.1 特征提取

与之前的方法一致(Ghosal等人,2020年;Shen等人,2021年b),我们使用RoBERTa大型模型(其是Bert的改进版,Liu等人,2019年)来提取话语特征。RoBERTa大型模型首先使用话语记录进行微调,然后在DualGATs训练过程中作为冻结参数的特征提取器。具体来说,对于第i个话语 u i u_i ui,我们在其标记上准备一个特殊的标记“[CLS]”,得到一个输入格式为{[CLS], w 1 w_1 w1,…, w n i w_{n_i} wni },其中 n i n_i ni表示 u i u_i ui中标记的标记数量。随后,我们从“[CLS]”标记对应的最后一层提取输出激活,作为 u i u_i ui h i h_i hi R d u R^{d_u} Rdu的特征表示。其中, d u d_u du表示特征表示的维数。总的来说,所有话语的特征表示为 H u H_u Hu R N × d u R^{N×{d_u}} RN×du

3.2 DualGATs层

DualGATs层有效地捕获了对话中的话语结构和说话者感知上下文,使用了三个基本模块: DisGAT、SpkGAT和交互。在本节中,我们首先概述了初始层中每个模块的计算过程,然后将其扩展到多个后续层。

DisGAT

DisGAT模块在对话依赖图上进行消息传播,以整合对话结构信息。我们首先解释了话语依赖图的构建,然后概述了DisGAT模块对所构建的图所使用的推理过程。

我们将对话的话语依赖图定义为G D i s ^{Dis} Dis =( V D i s V^{Dis} VDis E D i s E^{Dis} EDis,其中 V D i s V^{Dis} VDis表示表示基本话语单元(EDUs)的节点集, E D i s E^{Dis} EDis是描述EDUs之间话语依赖关系的邻接矩阵。在我们的方法中,对话中的每一个话语都被视为一个EDU,我们利用了(Asher et al.,2016)中概述的16种话语依赖类型。这些依赖类型包括注释、澄清问题、阐述、承认、继续、解释、条件、问题-回答对、交替、问题-阐述、结果、背景、叙述、纠正、并行和对比(我们将这组类型称为 R D i s R^{Dis} RDis)。

具体来说,我们首先在一个人类标注的对话语料库(Asher等人,2016)上预训练一个话语解析器(Shiang,2019),它与最先进的结果相比较,链接预测 F1为0.78,关系分类 F1为0.56。然后,我们使用这个预先训练好的解析器来预测ERC数据集中对话的话语依赖性。因此,对于每个会话,我们将其对应的语篇依赖图表示为G D i s ^{Dis} Dis =( V D i s V^{Dis} VDis E D i s E^{Dis} EDis)。其中 V D i s [ i ] V^{Dis}[i] VDis[i] V i D i s V^{Dis}_i ViDis表示话语 u i u_i ui对应的节点,用相应的特征表示 h i h_i hi初始化。如果从 u i u_i ui u j u_j uj的存在具有该特定类型的链接边,则边 E D i s [ i ] [ j ] E^{Dis}[i][j] EDis[i][j] e i , j D i s e^{Dis}_{i,j} ei,jDis被分配依赖类型为 r D i s r^{Dis} rDis R D i s R^{Dis} RDis,如图2的左侧所示。

构建了对话的对话依赖图后,我们就应用DisGAT模块在图节点之间传播和聚合语篇结构信息。DisGAT模块构建在GAT的基础上(Veliˇckovi‘c等人,2018年),但也包含了类型编码,以解释节点之间的依赖性类型(话语)。具体来说,对于一个给定的节点 V i D i s V^{Dis}_i ViDis,DisGAT对其相邻节点的信息进行聚合如下:
在这里插入图片描述
其中 α i j α_{ij} αij表示从节点 V i D i s V^{Dis}_i ViDis到其邻居 V j D i s V^{Dis}_j VjDis的边权重,sm表示softmax函数,LRL表示LeakyReLU激活函数,W和a表示可训练的参数, e i , j D i s e^{Dis}_{i,j} ei,jDis R ∣ R D i s ∣ R^{|R^{Dis}|} RRDis表示节点 v i v_i vi和节点 v j v_j vj之间的话语依赖类型对应的one-hot编码(在模型训练期间固定),| R D i s R^{Dis} RDis|表示话语依赖类型的数量,∥表示连接操作, N i D i s N^{Dis}_i NiDis表示在图 G D i s G^{Dis} GDis中节点 v i D i s v_i^{Dis} viDis的邻居, h i D i s h_i^{Dis} hiDis R d h R ^{d_h} Rdh表示在DisGAT更新后的与节点 v i D i s v_i^{Dis} viDis相关的隐藏表示, d h d_h dh表示隐藏表示的维数。更新后的所有节点的隐藏表示形式表示为 H D i s H^{Dis} HDis R N × d h R^{N×{d_h}} RN×dh
我们总结了DisGAT在初始层中的计算过程如下:
在这里插入图片描述

SpkGAT

SpkGAT模块在说话人依赖图上执行消息传播,以合并说话人感知的上下文信息。我们将首先解释说话者依赖图的构造,然后介绍SpkGAT在这个构造的图上的推断过程。

我们将会话的说话人依赖图定义为 G S p k G^{Spk} GSpk =( V S p k V^{Spk} VSpk E S p k E^{Spk} ESpk,其中 V S p k [ i ] V^{Spk}[i] VSpk[i] V i S p k V^{Spk}_i ViSpk代表 u i u_i ui(第i个话语),其表示用相应的特征表示 h i h_i hi初始化。 E S p k E^{Spk} ESpk是邻接矩阵,它描述说话者以及节点之间的(话语)的时间依赖性。根据先前基于图的ERC方法的惯例(Ghosal等人,2019年;石田等人,2020年),我们定义了五种说话者依赖类型:Self-Past, Self-Future, Inter-Past,Inter-Future, and SelfLoop(称为集合 R S p k R^{Spk} RSpk)。具体来说,Self表示当前话语对同一说话者所表达的其他话语的影响。Inter表示当前话语对其他说话者所表达的话语的影响(不包括当前话语的说话者)。Past and Future是指当前的话语和其他话语在对话中的相对位置,决定了过去的话语如何影响未来的话语,反之亦然。SelfLoop表示当前话语的自我影响。对于任何 u i u_i ui u j u_j uj,如果它们满足说话者依赖类型 r S p k r^{Spk} rSpk R S p k R^{Spk} RSpk,则 E S p k [ i , j ] E^{Spk}[i,j] ESpk[i,j] E i , j S p k E^{Spk}_{i,j} Ei,jSpk= r S p k r^{Spk} rSpk,(如图2的右侧所示)。

在构建了对话的说话者依赖图后,我们实现了SpkGAT来在图节点上传播和聚合对说话者有感知的上下文信息。同样,在初始层中,SpkGAT的计算过程总结如下:
在这里插入图片描述

交互模块

为了从话语结构和说话者感知的语境中捕获不同的信息,我们引入了一个微分正则化器,它鼓励了DisGAT和SpkGAT模块的更新表示之间的差异。正则化器的计算如下:
在这里插入图片描述
其中,下标F表示弗罗比尼乌斯范数。

然后,为了集成DisGAT和SpkGAT模块,有效地交换两个模块之间的相关信息,我们采用了相互交叉注意力作为桥梁。计算过程如下:
在这里插入图片描述
其中, W 1 W_1 W1, W 2 W_2 W2 R d h × d h R^{d_h×d_h} Rdh×dh是可学习的参数, A 1 A_1 A1, A 2 A_2 A2 R N × N R^{N×N} RN×N分别是从 H S p k H^{Spk} HSpk投影到 H D i s H^{Dis} HDis H D i s H^{Dis} HDis投影到 H S p k H^{Spk} HSpk的临时矩阵,其中, H D i s ′ H^{Dis'} HDis R N × d h R^{N×d_h} RN×dh可以看作是从 H S p k H^{Spk} HSpk H D i s H^{Dis} HDis的投影,而 H S p k ′ H^{Spk'} HSpk R N × d h R^{N×d_h} RN×dh遵循相同的原理。

整个过程

为了在多个连续层上迭代地细化和交换话语结构信息和说话者感知的上下文信息,我们归纳了初始层的计算过程。具体步骤如下:
在这里插入图片描述

3.3 情感预测

我们通过连接L层DualGATs的输出( H D i s ′ , [ L ] H^{Dis',[L]} HDis,[L] H S p k ′ , [ L ] H^{Spk',[L]} HSpk,[L])来得到 u i u_i ui的最终表示。最终的表示通过全连接网络(FCN)进行分类:
在这里插入图片描述
其中, ˆ y i ˆyi ˆyi是预测话语 u i u_i ui的情感标签, h i D i s ′ , [ L ] h_i^{Dis',[L]} hiDis,[L] h i S p k ′ , [ L ] h_i^{Spk',[L]} hiSpk,[L] R d h R^{d_h} Rdh表示第i个话语的表示,W和b是可学习的参数, d e d_e de表示情感标签的数量。

3.4 损失函数

我们的训练目标是最小化以下总目标函数:
在这里插入图片描述
其中,λ是一个正则化系数。ℓerc是一个标准的交叉熵损失,公式表述为:
在这里插入图片描述
其中B是会话的数量,N(β)是第β次对话中的话语数量, y β , i y_{β,i} yβ,i是一个one-hot形式的真实标签。

4 实验设置

4.1数据集

我们在以下四个ERC数据集上评估了我们的dualgat。这四个数据集的统计数据如表1所示。

IEMOCAP(Busso et al.,2008):每次对话都来自于两个演员基于剧本的表演。这里有6个情绪标签,包括快乐、悲伤、愤怒、沮丧、兴奋和中性。由于IEMOCAP没有验证集,我们遵循(Shen et al.,2021b),使用训练集中的最后20个对话进行验证。

MELD(Poria et al.,2019a):从《老友记》电视剧中收集的剧本。有7个情绪标签,包括中性、快乐、惊讶、悲伤、愤怒、厌恶和恐惧。

EmoryNLP(Zahiri和Choi,2018):从《老友记》电视剧中收集的剧本。与MELD不同的是,它的情感标签包括悲伤、疯狂、恐惧、强大、和平、快乐和中性。

DailyDialog(Li et al.,2017):由人类撰写的日常交流。它的情感标签与MELD中使用的情感标签相同。
在这里插入图片描述

4.2 显著性检验和评价指标

为了检验性能改进的显著性,我们进行了默认值为0.05的配对 t-test(Koehn,2004)。根据之前的方法(Ghosal等人,2019;Shen等人,2021a,b),我们采用DailyDilog排除大多数类别(中性),其他数据集采用加权平均F1得分。

4.3 基线比较

为了进行全面的性能评估,我们将DualGATs与以下最先进的基线进行了比较:
BC-LSTM(Poria等人,2017),ICON(Hazarika等人,2018a),DialogueRNN(Majumder等人,2019),DialogueCRN(Hu等人,2021),KET(Zhong等人,2019),DialogueGCN(Ghosal等人,2019),RGAT(Ishiwatari等人,2020),DialogXL(Shen等人,2021a),DAG-ERC(Shen等人,2021b),CoG-BART(Li等人,2022b),CoMPM(Lee and Lee,2022b),COSMIC(Ghosal等人,2022b),TODKAT3(Zhu等人,2022b),DialogueRole(Ong等人,2022b),CauAIN(Zhao等人,2022b)和DisGCN(Sun等人,2022b)。

为了进行公平的比较,基线+RoBERTa代表使用RoBERTa Large(Liu et al.,2019)作为话语特征提取器。需要注意的是,大多数其他基线使用预先训练过的模型作为话语特征提取器,如DAG-ERC、CoMPM、COSMIC、DialogueRole和CLargogXL使用XLNet(Yang等人,2019年),CoG-BART使用BART(Lewis等人,2020年2),DisGCN使用BERT(Kenton和Toutanova,2019年)。

4.4 实现细节

我们的DualGATs是用Adam优化器进行训练的(Kingma和Ba,2015)。我们根据验证集的F1分数对每个数据集上的DualGATs进行超参数搜索。要搜索的超参数包括学习率lr({1e-5,5e-5,1e-4,5e-4,1e-3,5e-3}) 、dropout率( {0.0,0.1,0.2,0.3,0.4,0.5})、批次大小 ({8,16,32,64,128})、层数( {1,2,3,4,5,6})。每个数据集上的DualGATs的超参数细节如表2所示。对于其他超参数,来自RoBERTa的特征表示的维度 d u d_u du为1024,隐藏表示 d h d_h dh的维数为300,正则化系数λ为0.3。每个训练和测试过程都是在一个带有40GB内存的NVIDIA A100 GPU上运行的。每个训练过程包含60个阶段,每个阶段最多花费50秒。在验证集上F1得分最高的模型用于评估测试集。我们所有运行的报告结果都是基于在测试集上的5次随机运行的平均性能。
在这里插入图片描述

5 结果和讨论

5.1 主要结果

表3报告了所有比较基线和我们的四个数据集上的DualGATs的总体性能。
在这里插入图片描述

表3显示,

  • 当使用RoBERTa作为特征提取器时,诸如DialogueRNN、DialogueCRN、DialogueGCN和RGAT等基线看到了相当大的改进
  • 当特征提取器都是基于预先训练过的模型时,基于图的方法,如DialogueGCN或RGAT+RoBERTa, DialogXL, DAG-ERC, CoG-BART, and CoMPM,在四个数据集上,总体上优于基于序列的方法,如DialogueRNN或DialogueCRN+RoBERTa。这表明,基于序列的方法不能像基于图的方法那样有效地编码上下文,特别是对于长距离上下文。
  • 此外,当将额外的信息合并到基于序列或基于图的方法中时,如COMSIC中的常识知识、TODKAT中的主题信息、DialogueRole中的话语角色以及CauAIN中的情感原因,我们看到了整体表现的进一步提高。这表明,附加信息提高了模型对内隐情绪的理解
  • 然而,这些方法忽略了显式建模话语结构的重要性。与只关注说话者感知的上下文建模相比,我们的DualGATs通过DisGAT模块显式地整合了话语结构信息,因此它可以捕获直接影响情绪的显著上下文线索。此外,DisGCN只直接解析话语依赖图上导致性能较差。相比之下,我们的DualGATs同时模拟了话语结构和说话者感知上下文,在IEMOCAP数据集上取得了竞争表现,在MELD、EmoryNLP和DailyDialog数据集上与所有基线相比达到了更先进的性能。这些结果表明,我们的DualGATs有效地整合了话语结构和说话人感知的上下文信息,并考虑了它们的互补性,以实现更精确的ERC。

5.2 消融研究

在本节中,我们进行消融研究,以分析DualGATs中关键模块的影响,如表4所示。
在这里插入图片描述
DisGAT只建模了ERC的话语结构,由于人机交互的复杂性,它在对话语依赖不敏感的数据集上不能很好地工作。SpkGAT只为ERC建模了说话人感知的上下文,并取得了比DisGAT更好的性能,这表明对于ERC来说,说话者感知语境的建模比话语结构更重要。我们的DualGATs模型包括ERC的话语结构和说话者感知上下文,并优于DisGAT和SpkGAT,表明我们的DualGATs可以同时考虑二者的互补性,以实现更准确的ERC。DualGATs w/o regularizer意味着我们在交互模块中删除了差分正则化器,结果表明,微分正则化器诱导DualGATs学习更准确的互补信息。DualGATs w/o cross attention表示我们删除了交互模块中的相互交叉注意力转换,使得DisGAT和SpkGAT模块不能交互。此时,我们将最后一层的两个模块的输出表示连接起来,进行情绪预测。因此,在四个基准数据集上的性能显著下降。总的来说,我们的所有模块的DualGATs 实现了最好的性能。

5.3 误差分析

在查看了四个数据集上的预测标签后,我们发现以下两个方面是导致错误的主要原因。

首先,我们的DualGATs 倾向于将其他情绪的话语错误地分类为中性情绪。这是因为在ERC数据集中,大多数话语都包含中性情绪,特别是MELD、EmoryNLP和DailyDialog数据集,其中中性话语的比例分别为46.95%、29.95%和83.10%,这些数据集的高度不平衡的类分布导致了一些非中性的话语和更多的中性的话语之间的混淆,限制了情绪识别的性能

其次,我们的DualGATs 无法区分密切相关的情感对,比如幸福与兴奋,愤怒与沮丧,和平与快乐。如图3所示,我们在IEMOCAP数据集中展示了两个快乐与兴奋、愤怒与沮丧之间的错误分类案例。以图3 (a)为例,当说话者A说她或他得到了好消息时,很难区分他是快乐还是兴奋。类似情绪之间的错误分类现象也被报道过(Ghosal等人,2019;Shen等人,2021b;Ong等人,2022)。
在这里插入图片描述

5.4 DualGATs层数的影响

为了研究DualGATs层数的影响,我们对IEMOCAP和MELD数据集上评估了1到6层的DualGATs。如图4所示,我们带有两个DualGATs层的模型表现最好。一方面,当层数较小时,话语结构信息和说话者感知的语境信息可能无法很好地细化和交换。另一方面,如果有太多的层,由于产生了冗余或兼容的表示,忽视了重要的信息,性能将显著下降。
在这里插入图片描述

6 结论

在本文中,我们提出了带有DisGAT、SpkGAT和交互模块的DualGATs,以同时考虑ERC中语篇结构和说话者感知上下文的互补性。DisGAT和SpkGAT将话语结构和说话者感知的上下文信息并行合并。后续的交互模块集成了DisGAT和SpkGAT,通过相互交叉注意力,有效地在两个模块之间交换相关信息。实验结果表明,我们的DualGATs在大多数测试数据集上优于以前最先进的基线,进一步的分析验证了DualGATs中关键模块的有效性。

未来,我们将探讨以下方面: (1)将我们的方法应用于需要整合话语结构和说话者感知语境信息的类似任务;(2)增强我们的方法处理类别不平衡或类似情绪问题的能力,如引入数据增强或对比学习技术;(3)直接使用预先训练的深度序列模型在ERC数据集中解析对话时处理领域差距问题(Dong et al.,2020,2021)。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值