A Dual Contrastive Learning Framework for Enhanced Multimodal Conversational Emotion Recognition
摘要
对话中的多模态情感识别(MERC)通过整合对话视频中的语境信息和多模态信息来识别话语情绪。现有的方法难以捕捉由于标签复制而引起的情绪变化,也无法在融合过程中保持积极的独立模态贡献。为了解决这些问题,我们提出了一个双重对比学习框架(DCLF),它在没有额外数据的情况下增强了当前的MERC模型。具体来说,为了减轻标签复制效应,我们构建了上下文感知的对比对。此外,我们分配伪标记来区分模态特异性贡献。DCLF 与基本模型一起在语句、上下文和模态层面引入语义约束。我们在两个MERC基准数据集上的实验表明,在IEMOCAP上4.67%-4.98%和在MELD上5.52%-5.89%的性能提高,优于最先进的方法。扰动测试进一步验证了DCLF减少标签依赖性的能力。此外,DCLF将情绪敏感的独立模态特征和多模态融合表征整合到最终决策中,释放了个体模态的潜在贡献。
1. 介绍
多模态情感识别在对话中(MERC)旨在整合对话数据中的各种模态,以追踪对话者的情感轨迹。这一领域因其在以人为中心的会话智能中的广泛应用而受到广泛关注(李等,2023c;吉等,2023;阿南德等,2023)。
最近的研究集中在建模复杂的对话信息流,主要采用基于循环的方法(Ju等人,2023;Liang等人,2024;Guo等人,2024)或基于图的方法(Li等人,2023a,b,2024)。此外,对多模态融合策略的重新探索早期融合(Zhang等,2021;寿等,2022;温等,2023)或结合基于图的融合和晚期融合的混合方法(Hu等,2022;范等人,2024;Ai等人,2024)。然而,挑战包括感知由标签复制引起的情绪变化,以及融合过程中个体模态贡献的稀释仍未得到解决,这限制了MERC模型的潜力。
Ghosal等人(2021)观察到,现有的模型经常复制上下文中的显性标签,或模拟训练数据中的情绪转移模式,而不是真正理解上下文语义。为了验证这种标签复制效应,Zhang和Song(2022)引入了一个扰动测试。这个测试用来自共享相同情感的同一数据集的不同话语替换了原始上下文,称为情绪一致上下文替换(ECCS)。另一个极端的环境是用带有完全不同情绪的话语替换上下文,称为情绪不一致上下文替换(EICS)。我们将此测试扩展到多模态设置,结果如表1所示。我们的研究结果表明,ECCS对模型性能影响轻微,而EICS设置导致性能显著下降。这证实了这些模型严重依赖于情感标签,而没有捕捉到更深层次的上下文语义。
我们的研究结果表明,ECCS对模型性能影响轻微,而EICS设置导致性能显著下降。这证实了这些模型严重依赖于情感标签,而没有捕捉到更深层次的上下文语义。
另一方面,从理论上讲,与单模态设置相比,跨模态的互补信息(例如,图1中的u1-u3)应该会导致显著的性能改进。然而,这种优势在MERC中并不明显(Wang et al.,2023)。以MMGCN(Hu等人,2021)在MELD(Poria等人,2019)数据集上的表现作为一个例子,如果我们以任何单一模态(文本、音频、视觉)的正确预测作为最终判断,理论f1得分可以达到81.7。然而,目前的最佳表现只有70左右(Dai et al.,2024)。我们将这种差异归因于在融合过程中每个模态的准确贡献的稀释。例如,在图1中的u6中,一个基于视觉信号的Sad预测被来自文本和音频模式的中性推论所掩盖。现有的方法解码融合的结果,而不考虑每个模态的不同贡献,导致了一个得不偿失的胜利,最终限制了模型的潜力。
为了解决这些挑战,我们提出了一个双对比学习框架(DCLF),该框架与现有的多模态对话判别模型无缝集成,而不需要额外的数据。**为了减轻标签复制效应,我们构建了上下文语义感知的对比对。**具体来说,我们首先使用一个典型的MERC模型来提取上下文,并将这种表示视为一个对话总结。然后,我们将对话窗口中的历史话语与总结连接起来,以形成上下文一致的(积极的)样本。同时,我们从与历史话语相同的同一数据集中随机抽取具有相同情感的话语,并将它们与对话总结作为上下文不一致(负面)样本配对。为了区分各自模态的贡献,我们根据在单模态环境中相应语句的准确预测能力,为其分配伪标签。最终,DCLF与原始的基本模型一起运行,与这些新构建的标签进行并行对比学习,从而分别在上下文、话语和模态水平上联合建立语义约束。
我们在两个MERC基准数据集上进行了实验。基础模型采用不同的建模策略,在与DCLF集成后,在IEMOCAP上表现出4.67%-4.98%的性能提升,在MELD上则达到了5.52%-5.89%的提升。我们的结果显示,情境感知对比学习通过控制情感相关因素,有助于减少模型对标签的过度依赖。此外,与基线模型相比,我们的框架通过有效结合各模态的情感特性和多模态融合数据,持续提高了性能。这种方法最大化了每个模态的独特贡献,增强了整体决策过程。
我们的主要贡献如下:
-
- 我们提出了DCLF来增强现有的MERC模型。该框架与现有的模型兼容,并且不需要额外的数据。配备了DCLF的基本模型的性能优于目前的SOTA方法。
-
- 上下文感知对比对有效缓解标签复制效应,提高模型在情绪转移场景中的区分能力。
-
- DCLF基于每个单独模态的性能分配伪标签,增强了特定模态的贡献,减少了融合过程中的性能损失。
2.相关工作
2.1 多模态对话情感识别
早期的MERC研究探索了各种模态在情绪推理中的作用。Zhang等人(2020)并行化多个DialogueRNN(Majumder等人,2019),为每个模态分配一个单独的通道,并将输出与注意力机制融合。相反,Ren等人(2021)在进行对话建模之前,通过应用注意力来获得以文本为中心的表示,从而重新排序这些模块。Xing等人(2020年)取代了记忆模块采用动态版本的说话者状态跟踪,而Wen等人(2023)将CMN扩展为多模态版本,使用门控循环单元进行全局建模。最近的研究引入了专门的模块来解决MERC中的独特挑战。Li等人(2024年)使用shote(Chawla等人,2003年)算法增强了MMGCN(Hu等人,2021年),以提高对少数类别的识别。Dai等人(2024)提出了一个共识感知学习模块,通过情绪共识学习来对齐模态。Ai等人(2024)通过使用Doc2EDAG(Zheng等人,2021)来提取事件,并构建一个加权多关系图,以捕获对话者-事件的相关关系。
2.2 多模态融合
MERC模型主要可以根据模态融合的顺序分为早期融合(郭等,2024)和晚期融合(杨等,2023),近期的研究通常采用基于图的顺序和晚期融合范式(李等,2023a;范等,2024)。早期融合涉及在特征级别整合不同模态的数据(季等,2023)。相比之下,晚期融合则分别处理并分类每个模态的数据,然后将结果结合。自注意力机制将不同模态视为查询、键和值,也逐渐受到欢迎(Lian等,2021;Zhang等,2023)。此外,一些方法将同一话语的不同模态视为不同的语言,采用端到端的编码器-解码器结构来探索跨模态关系(Wang等,2020;Lian等,2022)。
2.3 对比学习
李等人(2022)首次将监督对比学习引入情感识别任务,通过排除不相似的情感来增强情感区分。聂等人(2023)利用主题对齐的语句作为正样本,采用对比学习方法来判断对话是否属于同一对话。宋等人(2022)提出了一种原型对比损失函数,用于解决情绪不平衡问题,且无需大批量数据。张和宋(2022)引入了一种语义引导的对比上下文感知方法,但其扰动测试与构建正负样本的过程不一致。胡等人(2023)结合了对比感知对抗训练和联合类别传播,以提取结构化的表示。高等人(2024)通过利用对比学习来创建不同的表征空间,来完善预先训练好的模型。在多模态设置中,Yang等人(2023)对上下文依赖关系进行了建模,并通过自适应路径选择和对比学习增强了可判别性。Dai等人(2024)引入了说话者引导的对比学习,以确保不同模式之间的多样性和语义一致性。
3. 方法
3.1 问题定义
3.2 模型概览
提出的DCLF,如图2所示,DCLF包括以下组件。首先,一个原始的MERC模型通过特征提取、语义建模和模态融合(SMMF)的阶段来处理对话,从而得到解码器的最终预测。在上下文感知对比学习(CACL)模块中,我们利用SMMF从目标话语中提取上下文特征,创建一个对话总结。然后,我们将历史话语与这个总结连接为积极样本,而消极样本是通过从同一数据集中的不同对话中随机选择具有相同情绪的话语,并与相同的总结配对而生成的。在模态贡献对比学习(MCCL)模块中,我们根据在单模态设置下是否可以做出正确的预测,为每个模态对应的话语分配伪标签。最后,将CACL和MCCL并行执行,并与原始的MERC模型协同工作。
3.3 典型的MERC模型
典型的神经MERC模型通常由三个组成部分组成:特征提取器、语义建模和特征融合模块和解码器。在本研究中,我们重点关注常用的视觉、文本、音频模态。特征提取器中将多模态对话记录作为输入,并为每个话语ui推导出特定于模态的表示形式u m i:
SMMF模块通常利用序列建模网络的组合来管理复杂的对话流和模态信息流。形式上,它以初始特定模态的表示作为输入,输出每个话语的情绪隐藏状态hi∈Rd:
其中,分类解码器由全连接层和一个softmax函数组成,预测目标话语的情绪标签y i:
其中W∈R |Y|×d和b∈R |Y|是可学习的参数。公式(1)-(3)概述了MERC模型的典型执行过程:
采用交叉熵作为损失函数:
3.4 上下文感知的对比学习
为了与真实世界的应用相结合,本研究专门关注实时情绪识别。在这种情况下,对话历史u1:i−1作为目标话语ui的上下文。
CACL模块的核心在于构建上下文感知的对比对。其基本思想是排除情绪标签的影响,使目标话语能够真正地捕捉到上下文语义。具体来说,构造对比样本需要上下文提取ci∈Rd(从SMMF模块中获得)和(伪)上下文话语。
上下文一致(正)对:假设与理解目标话语最相关的信息来自于其前面的对话窗口ui−W:i−1,其中W表示窗口大小。因此,我们将上下文ci与这些相关的话语依次连接起来,形成对,然后在隐藏的状态空间内对齐,形式化为:
上下文不一致(负)对:我们从同一数据集的不同对话中连续采样话语作为负例,并尽可能地将它们与ui−W:i−1中存在的情绪对齐。如果找不到完全匹配,我们逐渐放松对齐标准,直到找到合适的匹配点。这种方法最小化了情绪标签及其转变模式的影响。类似地,我们将上下文ci与这些负的例子连接起来,将它们转换为负对gn(n∈[1,W]),形成上下文不一致的集合PCI (i)。
PCC (i)和PCI (i)构成ui的对比对。我们应用监督对比学习(Khosla et al.,2020),将gp视为正例,将gn视为负例。CACL模块的总损耗LCA的计算方法为:
其中G(·)是一个评分函数,这里使用余弦相似度,τ ∈R+是一个温度参数。
3.5 模态贡献对比学习
有效利用多模态信息在MERC中至关重要。虽然一些方法直观地将单一模态作为主要模态(Zhang et al.,2022),但Song等人(2022)证明了文本信息可能无法区分情绪。Mao等人(2021)揭示,文本信息很大程度上依赖于语境。虽然模态融合增强了MERC模型,但低质量的单模态信息可能会破坏准确性。在某些情况下,MERC模型甚至与单一模态设置相比表现不佳,这强调了隔离和理解个体模态贡献的必要性。
我们设计了一种模态贡献对比学习方法来捕获不同识别倾向的相关性和差异。在MCCL模块中,我们将特征提取器直接连接到特定于模态的解码器,形成元素模型u。首先,我们进行自监督的模态级伪标记,详见算法1的第1-4行。然后,我们根据伪标签的第8-14行所述的步骤,按照算法1计算每个话语的对比损失,导致整体MCCL模块损失LMC。
此外,我们通过将每种模态的贡献感知表示与hi连接起来,将特征级和决策级融合的优势结合起来,然后将其输入到解码器中。这确保了高置信度单模态特征被纳入决策过程。
3.6 联合训练
DCLF的总损失主要分为两类:原MERC模型损失和对比损失。我们通过最小化以下损失的和来共同训练我们提出的DCLF:
其中,γca和γmc是可调节的超参数。θ是DCLF的一组可学习的参数。λ表示L2正则化的系数。
4. 结论
本文提出了一个MERC的双对比学习框架,旨在提高情绪转换对话场景的表现。DCLF还确保了每个模态的独特特性得到了保留和有效的利用。它通过在上下文、话语和模态级别上应用语义约束,与现有的MERC模型无缝集成。
实验结果证实了DCLF在提高模型整体性能方面的有效性。DCLF解决了复制标签模式的问题,并减少了不同模式融合过程中准确性损失。此外,该框架提高了单一模式的有效性,同时保持了灵活性,使其能够扩展到MERC任务之外,并展示了DCLF的广泛适用性。