多模态对话情绪识别的深度不平衡学习

在这里插入图片描述

摘要

对话中的多模态情绪识别(MERC)的主要任务是对文本、音频、图像、视频等模态中的情绪进行识别,这是实现机器智能的重要发展方向。然而,MERC中的许多数据表现出情绪类别的不平衡分布,研究人员忽略了不平衡数据对情绪识别的负面影响。为了解决这一问题,我们从数据增强、损失敏感性和采样策略三个方面对其进行了系统的分析,并提出了类边界增强表示学习(CBERL)模型。具体地说,我们首先设计了一个多模态生成对抗网络来解决原始数据中情绪类别的不平衡分布其次,提出了一种深度联合变分自编码器来融合跨模态的互补语义信息,并获得判别性特征表示最后,我们实现了一个具有掩码重构和分类优化的多任务图神经网络,解决了类边界学习中的过拟合和拟合不足问题,并实现了跨模态情感识别。在情绪动态动机捕获(IEMOCAP)和多模态情感数据集(MELD)上,结果表明,CBERL在情绪识别有效性方面取得了一定的提高。特别是在少数类的“恐惧”和“厌恶”情绪标签上,我们的模型将准确率和F1值提高了10%到20%。
代码:https://github.com/yuntaoshou/CBERL

1. 介绍

近几十年来,随着硬件资源和社交媒体的不断发展,人们已经广泛使用多种模式,如文本、音频、图像和视频来表达他们的情感或思想。对话中的多模态情绪识别(MERC)的任务是理解不同模式中的情绪。它可广泛应用于医疗保健、对话生成、智能推荐系统等领域,这已经引起了越来越多的研究关注[1]。例如,在智能推荐领域,机器可以根据消费者不断变化的情绪来推荐他可能最感兴趣的东西。同时,针对微博、Meta、推特等即时聊天软件的大型多模态语料库数据集的存在,可以为基于深度学习[2]的MERC提供数据基础。然而,这些语料库自然存在一个高类别的不平衡问题,即大多数类只包含少量的样本,而大量的样本只属于少数类

目前主流的MERC任务主要使用图神经网络(GNN)进行信息融合,以提高情绪预测[3]、[4]的有效性,但忽略了数据不平衡问题。然而,在MERC领域,数据不平衡是一个普遍存在的问题,这将阻碍模型对数据分布规律的学习,导致模型无法识别情绪类别边界。以流行的多模态基准数据集(MELD)为例,“恐惧”和“厌恶”情绪标签分别占总标签的1.91%和2.61%,F1(b)中“恐惧”和“厌恶”情绪标签的基线模型均小于11.2%,这些情绪分类结果不能满足实际需要。同样,这个问题也存在于其他多模态基准数据集上。因此,有必要将数据不平衡问题作为MERC模型设计的起点。

在这里插入图片描述
为了缓解深度学习中的数据不平衡问题,主要有三个不同的研究方向去优化类边界的区分度:数据增强[5]、[6]、采样策略[7]、[8]和损失敏感[9]、[10]。虽然这些方法在各自的领域都取得了较好的结果,但对MERC中的数据不平衡问题仍然缺乏系统的考虑。

基于数据增强的研究旨在增加少数类样本的数量,以提高模型学习到的类边界的清晰度。例如,Su和Lee [11]提出了语料库感知情绪CycleGAN(CAEmoCyGAN)方法,该方法通过语料库感知注意力机制改善了生成数据的分布,使模型能够更好地学习类边界。DA-GAN [12]构建了一个图像条件生成对抗网络,该网络使用来自源域的数据来学习数据分布,并通过生成类内数据分布来执行数据增强。Zhu等人[13]使用CycleGAN通过补充和细化数据流形,并在相邻类别之间找到更好的边来生成新的图像数据。Latif等人[14]使用混合数据增强方案来增强GAN的特征学习并生成语音数据。VAE-D2GAN [15]采用变分自编码器(VAE)架构,通过潜在向量学习实际数据的空间分布,并将其引入双鉴别器GAN,以提高生成的脑电图(EEG)数据的多样性。虽然上述方法可以获得相对较好的识别结果,但它们都致力于单峰数据(即图像、脑电图或语音)的生成。然而,协作生成多模态数据仍然是一项具有挑战性的任务。

基于采样策略的研究主要集中在通过采样频率来平衡少数类样本与多数类样本的比例。例如,Hamilton等人[16]利用GraphSAGE随机抽样邻居节点,并利用它们的信息生成新的节点嵌入表示。然而,这种采样机制可能会出现过拟合或拟合不足的情况。

基于损失敏感函数的研究目标是通过给损失函数中的少数样本分配更高的权重,使模型学习少数类样本的分布。例如,Li等人[10]提出了梯度协调机制(GHM),它利用梯度密度函数来平衡模型的权重,便于区分和难以区分的样本。然而,这些方法容易受到大多数类或噪声数据样本[17]的干扰。

总的来说,上述方法有两个局限性: 1)大多数现有的方法通过过采样或采样不足来进行数据增强,它们不能生成新的样本。2)虽然现有的基于GAN的数据增强方法可以生成新的样本,但由于多模态数据之间的异质性问题,它们不能很好地协同生成多模态数据,导致生成的数据可能是噪声数据

鉴于上述问题,如何从数据增强、采样策略和损失敏感三个方面系统地消除MERC中数据不平衡的负面影响仍然是一项具有挑战性的任务。因此,我们从这三个方面提出了类边界增强表示学习(CBERL)模型来解决MERC中的数据不平衡问题。

所提出的模型CBERL将首先使用生成式对抗网络(GAN)的数据增强方法来生成新的样本,从而为后续模型学习判别类边界提供了数据基础。在提出的GAN中,我们设计了一个源-目标生成器和一个目标-源生成器。从源-目标的生成器主要用于学习数据的原始分布,并生成符合原始数据分布的新样本。目标-源生成器主要用于进一步提高生成数据的质量。我们还引入了一致性损失,以确保生成的数据和原始数据之间的分布一致性。由于多模态数据的异质性,我们引入情绪分类损失和判别损失,引导生成器学习多模态数据中的互补语义信息和一致语义信息,并协同生成多模态数据。值得注意的是,提出的GAN和随后的四个模块是分别训练的。换句话说,我们首先进行数据增强,然后在完成数据增强后使用随后的四个模块进行情绪分类。

数据增强后,我们将原始和新生成的数据输入到带有KL散度的深度联合变分自编码器(DJVAE)中进行跨模态特征融合,以捕获不同模态之间的互补语义信息,实现有效的特征降维。然后,我们将由DJVAE得到的融合的低维特征向量输入到Bi-LSTM中,以获得具有更丰富的上下文语义信息的特征表示。

接下来,我们将Bi-LSTM获得的上下文特征向量输入我们提出的多任务图神经网络(MGNN)。具体来说,对于第一个子任务,为了克服GNN中随机抽样策略对少数类样本的过拟合或拟合不足问题,MGNN 在聚合周围邻居节点信息的过程中,首先会随机对网络中的一些节点执行掩码操作。然后,将剩余的未掩码的邻居节点输入到图卷积网络层和多层感知器(MLP)中,得到所有邻居节点的预测值。最后,计算真实值和预测值之间的损失来优化类边界的分布表示。对于第二个子任务,我们将GNN提取的特征向量输入到由多个弱分类器组成的情绪分类模型中,并在损失函数中添加一个条件因子,以增强模型学习少数类样本的倾向。GNN的底层参数在GNN的两个子任务之间共享,有助于提高模型的泛化能力,从而提高情绪识别的性能。

1.1 我们的贡献

因此,MERC不仅要考虑文本、音频、视频和图像模式的特征融合问题,还要生成一种新的体系结构来解决数据不平衡问题。受上述问题的启发,我们提出了一种新的CBERL模型,以获得更好的情绪类边界。本文的主要贡献如下。

  • 1.提出了一种新的深度不平衡学习架构CBERL。CBERL不仅可以融合不同模式的语义信息,还可以更准确地学习不平衡数据的类边界。
  • 2.提出了一种新的生成对抗网络来生成多模态样本,为后续模型学习类边界提供了数据基础。通过添加一致损失和分类损失,分别减少了生成数据与原始数据和标签之间的分布差异。
  • 3.我们提出了一种多模态特征融合方法,即DJVAE。DJVAE通过引入KL散度来估计数据的潜在分布,从而可以学习多模态特征之间的互补语义信息,得到更具判别性的特征分布。
  • 4.提出了一种基于掩模重构和分类优化的MGNN模型,解决了GNN中随机采样策略对少数类样本的过拟合和基于分类优化的欠拟合问题。
  • 5.最后,在 IEMOCAP 和 MELD 数据集上进行了广泛的实验。与基线模型相比,CBERL具有较好的情绪分类效果,尤其是对少数类情绪。

2. 相关工作

2.1 对话中的多模态情感识别

MERC在现实生活中得到了广泛的应用,特别是在智能对话推荐领域,具有较高的应用价值。目前的主流研究方法主要集中在三个研究方向上:基于上下文的情绪识别[18],基于说话者的情绪识别[19],和区分说话者的情绪识别[20]

在基于上下文的情绪识别研究中,Nguyen等[21]采用了由双流自编码器和长短期记忆神经网络(LSTM)组成的深度神经网络,该网络能够通过有效整合会话上下文来进行情绪识别。Qin等[22]通过结合BERT实现了深度协同交互关系网络(DCRNet),该网络采用双向编码表示[23],与对话行为和情绪变化进行交互。近年来,基于Transformer的多模态情绪识别方法已被证明是一种更好的建模长期上下文相关性[24]的技术。例如,Ma等人[25]提出了一个基于Transformer的自蒸馏模型来捕获模态内和多模态信息的相互作用。Lian等人[19]提出了使用单Transformer和跨Transformer的CTNet来提取话语中的时间信息和跨模态语义信息。

在基于说话者的情绪识别研究中,Xing等人[26]进行了自适应动态记忆网络(A-DMN),该网络使用全局递归神经网络(RNN)来模拟说话者之间的影响。然而,A-DMN对过长的文本序列的记忆能力较差。Hazarika等人[27]创建了会话记忆网络(CMN),创新性地引入了一种注意力机制,以获取历史语境对当前话语的重要性,从而模拟了说话者之间的依赖关系。然而,这种方法不能建模多对话关系。Ghosal等人[28]提出了对话框,该方法利用图卷积神经网络(GCN)的特性构建了一个动态图模型,利用说话者作为图的节点和说话者之间的依赖关系作为边来模拟说话者之间的交互。然而,GCN容易出现过度平滑现象,这将导致模型无法提取出更深层次的语义信息。

在基于区分说话者的情感识别中,虽然CMN、ICON、DialpgueGCN等模型模拟了不同说话者之间的依赖关系,但他们没有区分最终情感识别过程中话语的说话者。为了克服这个问题,majuder等[1]引入了对话网。该模型同时考虑了说话者信息、话语上下文和多模态特征的情绪信息,采用三个门控循环单元(GRU),即单元GRU、全局GRU和情绪GRU,来捕捉说话者状态、全局上下文状态和情感状态。对于当前时间t的话语,上下文的全局状态由前一个时间t−1的上下文全局状态、当前时间t的上下文表示和当前说话者在前一个时间t−1的状态来更新。说话者状态由上次当前说话者的状态t−1、当前上下文的表示以及前一次上下文的全局状态进行更新。情感状态由说话者在t时刻的当前状态和之前在t−1时刻的情感状态来更新。最后,对得到的情绪状态进行情绪分类。

对于当前时间 t 的语句,上下文的全局状态由上一时间 t - 1 的上下文全局状态、当前时间 t 的上下文表示法和当前说话人上一时间 t - 1 的状态更新。说话人的状态由当前说话人在前一个时间 t - 1 的状态、当前上下文的表示和前一个时间的上下文全局状态更新。情感状态由说话者在 t 时刻的当前状态和前一个 t - 1 时刻的情感状态更新。最后,根据获得的情感状态进行情感分类。

2.2 数据增强

数据集的稀少一直是深度学习和机器学习[29]中不可避免的问题,使得深度神经网络模型难以学习真实数据的无偏差表示,从而导致严重的过拟合问题。虽然正则化方法可以缓解模型过拟合[30]的问题,但这并不是最基本的解决方案。当数据集足够大时,即使是最简单的机器学习模型也能获得很好的结果。因此,我们将主要考虑数据增强方法来提高模型的泛化能力。

在一项基于样本采样的研究中,Chawla等人[38]采用了合成少数过采样技术(SMOTE)方法。通过选择每个少数样本的k个相邻样本,然后通过一个等式将每个相邻样本与原始样本手工合成为一个新样本,从而增加了少数样本的数据量。然而,这种算法存在少量样本被边缘化的问题。Han等[39]提出了Borderhne-SMOTE算法,通过在适当的区域插值来增加少数类样本的数据量。该方法解决了样本分布的边缘化问题。DeepSMOTE可以很好地解决样本不平衡的问题。在基于损失的函数层面上,Lin等人[9]提出了焦点损失,它增加了一个参数γ来衡量损失,以平衡简单分类样本和复杂分类样本对损失的贡献。Li等人[10]采用了梯度协调机制(GHM),通过梯度密度函数抑制了简单和困难分类样本的分类结果。在基于模型级的研究中,Wang等人[40]提出了基于深度集成级的可解释Takagi-Sugeno-Kang
Fuzzy Classifier (DE-TSK-FC),利用连续的零阶TSK模糊分类器对问题区域进行分层划分,然后使用k-近邻(KNN)进行分类。

3. 方法

3.1 CBERL结构的设计

在本节中,我们将详细介绍CBERL结构的设计。图2直观地显示了本文提出的CBERL模型的体系结构。如图所示,我们的模型包括五个关键阶段:
在这里插入图片描述

特别是,数据增强阶段是单独训练的。对于多模态特征融合的四个阶段,模块内上下文特征提取、图交互和情绪分类,我们将其作为一个整体进行训练。具体来说,我们首先使用训练数据集中的视频、音频和文本数据来分别训练生成器和判别器。在生成器和判别器的训练完成后,将生成器生成的多模态数据和原始训练数据输入特征融合层,实现模块内和模态间信息融合。在获得融合的多模态语义信息后,我们将其输入到Bi-LSTM层,以提取多模态信息中的上下文语义信息。然后,我们利用上下文语义特征来构造一个说话者关系图,并利用图卷积运算来聚合说话者之间的会话关系信息。最后,我们利用图卷积操作后提取的特征向量,分别完成数据重构和情绪分类任务。在执行图卷积操作时,我们只使用未掩码的周围邻居节点进行信息聚合。特别是,在情绪分类阶段,我们使用交叉熵损失和条件反射因子γ来进行情绪分类。

3.1.1 数据增强

与以往使用过采样或欠采样方法来缓解数据不平衡问题的工作不同,我们使用GAN方法来进行数据增强。此外,与传统的GAN方法不同,我们引入一个一致性损失,以确保生成的数据和原始数据之间的分布的一致性,以及情感分类损失和判别损失指导生成器捕获互补和一致的语义信息在多模态特性和协作生成新的多模态数据。特别地,我们在数据增强阶段分别训练一个生成器和一个判别器。在完成数据增强后,该模型可以获得更好的情绪分类结果。具体来说,我们将新生成的样本与原始样本输入后续的CBERL模型,以实现数据平衡。值得注意的是,GAN的训练和随后的四个阶段是分开的;

为了解决MERC数据集中的类分布不平衡问题,我们首先构建了一个用于对话中多模态情绪识别应用场景的多源生成器和判别器。然后,这些模型在相互竞争时学习多模态数据的潜在分布。最后,我们通过在学习到的潜在空间中对数据进行采样来增加模型所需的数据量。

数据增强方法的概述如图3所示,它由一个生成器G和判别器D。在本文中,我们考虑源数据和目标数据之间的双向映射函数,并使用两个生成器,包括从源数据到目标数据的合成样本(GS→T)和从目标数据到源数据的合成样本(GT→S)。

在这里插入图片描述

具体来说,我们使用原始的多模态情绪数据集对情绪分类器ECs进行预训练,从而指导GAN的训练方向。我们利用分类损失来指导生成器学习多模态特征的互补和一致的语义信息,并消除模态特征之间的异质性。为了合成新的样本,我们在生成器GT→S中添加一个情绪状态向量Z作为其输入。在模型训练过程中,每个源数据对应于一个特定的目标数据,其情绪标签应该是一致的。我们定义了源数据和目标数据之间的损失函数,如下式所示:

在这里插入图片描述
此外,我们假设GS→T是单峰源的发生器,而DT ,F是单峰目标的判别器。GS→T对噪声数据进行编码操作(Enc),以生成符合真实数据分布规律的样本。DT、F将输入数据映射到目标域通过解码操作(Dec)。我们引入判别损失来指导模型学习多模态互补和一致的语义信息,如下式所示:

在这里插入图片描述
最后,为了保证生成数据与原始数据分布规律的一致性,本文还在模型的训练过程中增加了一致性损失,其损失函数定义如下式所示:

在这里插入图片描述

因此,本文在训练过程中使用的生成式对抗网络的整个损失函数LEmoGAN定义如下式所示:

在这里插入图片描述

在模型训练过程中,我们使用Adam优化算法来更新生成器和判别器的网络参数。其中,生成器的更新公式定义如下式所示:

在这里插入图片描述
此外,更新后的判别器方程定义如下式所示:

在这里插入图片描述

在经过GAN训练后,本文利用它生成符合原始数据分布规律的多模态情绪样本,进行数据扩充。特别是,GAN网络是单独训练的。

3.1.2 跨模态特征融合

在完成数据增强后,我们提出了一种基于DJVAE的多模态特征融合方法。不同于简单的VAE,只对原始数据执行点对点的映射。受联合概率分布的想法,我们引入KL散度估计原始数据的基本分布规律,以捕捉模式差异的特点,并获得更有区别的表示类边界;

在这里插入图片描述

为了捕获模态之间的互补语义信息,并融合不同的多模态特征向量,我们设计了一个DJVAE。如图4所示,DJVAE由编码器和解码器组成。利用编码器将数据样本x映射到低维特征空间z∈Z中,并利用解码器对原始数据样本进行重构。该等式的定义如下等式所示:

在这里插入图片描述

然后,DJVAE通过最小化原始数据样本x与重建数据样本之间的间隙,得到了数据样本与低维特征空间之间的最优映射关系。然而,简单的VAE不能过滤噪声样本,而只能通过均方误差(MSE Loss)实现样本数据与低维特征空间之间的点对点映射。与简单的VAE不同,本文提出的DJVAE模型将引入KL散度来估计编码器和解码器两者之间的相似性,从而学习多模态特征的潜在语义信息。KL散度公式的定义如下式所示:

在这里插入图片描述

以上式可变形得到下式:

在这里插入图片描述

同时,由于KL散度是非负的,我们可以得到以下方程:

在这里插入图片描述

因此,我们可以得到DJVAE的损失函数,如下式所示:

在这里插入图片描述

3.1.3 模块内上下文特征提取

在完成多模式特征融合后,我们使用Bi-LSTM对融合的文本、视频和音频特征提取上下文语义信息;

说话者所说的话语是按照一定的语法规则排列的,由不同顺序的单词组成的话语可能有完全不同的含义。此外,这些上下文特征,视频和音频两种模式的特征向量包含了时间维度的语义信息,说话者可能在不同的时间表现出不同的情绪。更重要的是,上述三种模式的语义信息都是以特定的顺序传递的。因此,我们使用Bi-LSTM在模态内进行上下文特征提取。每个LSTM块由多个基本的LSTM单元组成,每个LSTM单元包含一个输入门、一个遗忘门和一个输出门[41]。

输入门的定义如下式所示:

在这里插入图片描述

Bi-LSTM是由两个隐藏层在相反方向上的特征向量拼接组成的,其定义如下式所示:

在这里插入图片描述

3.1.4 图交互网络

越来越多的证据表明,聚合图中所有相邻节点的信息将阻止模型从少量类别节点中学习数据的无偏差表示。具体来说,我们使用BiLSTM提取的上下文语义特征来构建一个说话人关系图,并掩码图中的一些节点。然后利用GCN对未掩码节点的信息进行聚合。最后,将从聚合中获得的语义信息分别进行数据重构和情绪预测任务,以提高GCN对少数类节点的修正能力;

我们使用图来构建说话者之间的交互作用,以捕捉与说话者相关的上下文语义信息。然而,MERC中的数据集存在数据不平衡的问题,这将导致模型无法学习少数类节点的无偏表示,甚至无法将它们视为数据中的异常值。因此,针对上述问题,我们提出了一种多任务图神经网络模型MGNN来缓解不平衡分布的问题。MGNN同时执行两个子任务,以提高GCN的泛化能力。1)数据重建;2)情绪分类。

首先,我们构造一个有向图G = {V,ε,R,W},节点vi(vi∈V)由多模态特征向量gi,和边缘(rij∈ε)是由节点vi和节点vj,ωij(ωij∈W,0≤≤≤1)是边缘的权重,r∈R代表边的关系类型。

边权值:利用相似度注意机制计算图中边的权值,并根据计算出的边权值聚合邻居信息。我们利用多层感知器(MLP)来计算节点i与其周围的邻居j之间的相似性。该公式的定义如下式所示:

在这里插入图片描述
在这里插入图片描述

消息传递:由于严重的数据不平衡问题,如果GCN操作用于聚合周围所有邻居节点的信息,它将导致模型偏向于拟合多数类节点,而少数类节点被视为异常值的数据。因此,我们认为没有必要聚合图中的所有邻居节点。如图5所示,为了解决上述问题,我们随机对一些邻居进行掩码操作,然后使用图卷积操作对未被掩码的邻居节点的信息进行聚合,然后执行数据重构任务。消息传递的定义如下式所示:

在这里插入图片描述
在这里插入图片描述
数据重建:我们使用MSE Loss来测量重建数据与原始数据之间的差异。该等式的定义如下等式所示:
在这里插入图片描述

3.1.5 情绪分类

最后,我们利用GCN提取的特征向量来完成情绪分类。与现有的MERC方法利用全连通层进行情绪分类以获得最终情绪类别的方法不同,我们提出了一种分类优化算法,使模型关注于难分类的样本

在模型训练中,与多数类样本相比,少数类样本对模型的影响很小,这将导致模型更新参数的方向达到有利于多数类样本的方向。然而,该模型也必须能够对少数类样本进行正确的分类。因此,我们使用了一种名为Adaboost的集成学习算法,该算法不断优化弱分类器中话语样本的权重,并在分类过程中增加少数类话语样本的权重,从而形成强分类器。

3.2 模型训练

CBERL模型通过在交叉熵损失函数中加入一个条件反射因子(1−Pi,j [yi,j ])γ,使模型更加关注难以区分的样本,并采用L2正则化方法来防止模型的过拟合,从而为指导模型参数的更新方向提供了指导。损失的定义如下式所示:

在这里插入图片描述

然后我们可以得到模型训练的总损失函数,如下式所示:

在这里插入图片描述

4. 实验

数据集:The MELD and IEMOCAP
实验结果:

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值