cogmen: contextualized gnn based multimodal emotion recognition(2022)

最新推荐文章于 2024-04-28 09:36:30 发布

阿凡凡提

最新推荐文章于 2024-04-28 09:36:30 发布

阅读量1.1k

点赞数 1

分类专栏：语音情感识别文章标签：人工智能语音识别自然语言处理

语音情感识别专栏收录该内容

2 篇文章 0 订阅

订阅专栏

cogmen：基于语境gnn的多模式情感识别

摘要

情感是人类互动的固有部分，因此，开发理解和识别人类情感的人工智能系统势在必行。

在涉及不同人群的对话中，一个人的情绪受到另一个说话者的话语以及他们自己在话语中的情绪状态的影响。

在本文中，我们提出了基于语境化(语境)图神经网络的多模式情感识别(cogmen)系统，该系统利用局部信息(即说话人之间的相互/内部依赖)和全局信息(语境)。该模型使用基于图神经网络(gnn)的架构来建模对话中的复杂依赖关系(局部和全局信息)。

我们的模型在iemocap和mosei数据集上给出了最先进的(sota)结果，详细的烧蚀实验表明了在这两个层面上建模信息的重要性。

研究内容

情绪是人类固有的，引导着他们的行为，并指示潜在的思维过程(minsky，2007)。因此，理解和识别情绪对于开发与人类直接交互的人工智能技术(如个人数字助理)至关重要。在许多人之间的对话中，每个人都会经历和表达情绪的起伏。多模式情感识别的任务解决了在不同环境(例如对话)中监测个体表达的情感(通过各种模式，例如视频(面部)、音频(语音))的问题。

1、话语中表达的情感状态与语境直接相关；例如，如果潜在的语境是关于一个快乐的话题，比如庆祝一个节日或描述一个假期，那么就会有更多的积极情绪，比如喜悦和惊喜。考虑图1中所示的示例，其中语境描述了一个激动人心的对话。演讲者1对自己的承认感到兴奋会影响整个语境中的情绪流动。

2、在会话环境中，情绪可能是一种交际反应，其来源于另一个人所说的句子，起到刺激作用。说话人2的情绪状态显示了u2、u4和u6中对说话人1的依赖，并通过对说话人1的反应好奇来维持u8和u10中描述的个人内部状态。

示例会话描述了全局信息以及说话人之间和内部依存关系对话语情感状态的影响。

此外，情绪是一种多模态现象；一个人从不同的模式(例如音频、视频)中提取线索来推断他人的情绪，因为不同模式中的信息通常是相辅相成的。

在本文中，我们利用这些直觉，提出了cogmen：基于语境化图神经网络的多模式情感识别架构，该架构解决了语境对话语的影响以及用于预测对话期间每个说话人每句话情感的相互依存和内部依存。

关于单峰(仅使用文本)预测已经有很多工作，但我们的重点是多峰情感预测。正如在多模态情绪预测的文献中所做的那样，我们不关注与单峰模型的比较。实验和消融研究表明，我们的模型利用了信息的来源(即局部和全局)，在多模式情感识别数据集iemocap和mosei上给出了最先进的(sota)结果。

Figure 1: 两个说话者之间的对话的例子，每句话都唤起相应的情绪。

提出的方法型架构

图2显示了详细的体系结构。输入的话语作为语境提取器模块的输入，该模块负责捕获全局语境。语境提取器为每个话语(utterance)提取的特征形成了一个基于说话人之间交互的图(Graph Formation)。该图作为Relational - GCN的输入，然后是graph transformer，graph transformer使用形成的图来捕捉话语之间的内部和内部关系。最后，作为情感分类器的两个线性层使用所有话语获得的特征来预测相应的情感。

Figure 2: The proposed model (COGMEN) architecture.

文章贡献

•我们提出了一种基于语境图神经网络(GNN)的多模式情感识别架构，用于预测对话中每个说话人的每个话语的情感。我们的模型在对话中利用了局部和全局信息。我们使用图形变换(SHI等人，2021)对多模式情感识别系统中的说话人关系进行建模。

•我们的模型在IEMOCAP和MOSEI的多模式情感识别数据集上给出了SOTA结果。

•我们对模型及其不同组件进行了彻底分析，以显示局部和全局信息的重要性以及 GNN组件的重要性。

数据集

我们在两个广泛使用的数据集上进行情感识别任务的实验：IEMOCAP(BUSSO等人，2008)和MOSEI(ZADEH等人，2018B)。数据集统计数据如表1所示。

Table 1: Dataset Statistics.

IEMOCAP是一个二元多模式情感识别数据集，其中对话中的每个话语都被标记为六种情感类别之一：愤怒、兴奋、悲伤、幸福、沮丧和中性。在文献中，两种IEM OCAP设置用于测试，一种具有4种情绪(愤怒、悲伤、幸福、中性)，另一种具有6种情绪。我们对这两种设置都进行了实验。

MOSEI是一个多模式情绪识别数据集，由7种情绪(-3(高度消极)到+3(高度积极))和6种情绪标签(幸福、悲伤、厌恶、恐惧、惊讶和愤怒)注释。注意，不同数据集的情绪标签不同。我们使用加权F1分数和准确性作为评估指标(详见附录C)。

补充知识

情感识别是自然语言处理中一个正在积极研究的问题。广泛的应用范围包括情感理解系统，近年来，从语料库到情感生成的意见挖掘吸引了积极的研究兴趣。基准多模式数据集的可用性，如cmu mosei(zadeh等人，2018b)和iemocap(busso等人，2008)，加速了该领域的进展。

从广义上讲，这一领域的大多数现有工作主要可分为两个领域：单峰方法和多峰方法。单峰方法倾向于将文本视为一种突出的通信模式，并仅使用文本模态来解决情感识别任务。相比之下，多模式方法更自然，考虑多种模式(音频+视频+文本)，并将它们融合到识别情感中。在本文中，我们提出了一种多模式的情感识别方法。然而，我们简要概述了一些重要的单峰方法，因为其中一些技术适用于我们的环境。

单峰方法：cosmic(yu等人，2019)利用常识知识执行纯文本情感分类问题。dialogxl(shen等人，2021a)使用xlnet(yang等人，2019)作为对话特征提取的架构。与我们的工作平行的其他流行方法使用基于图的神经网络作为基线，并解决基于rnn的架构中的语境传播问题，包括dialoguegcn(ghosal等人，2019)、rgat(ishiwatari等人，2020)、congcn(张等人，2019)和Sumaggin(sheng等人，2020)。最近的一些方法，如dag erc(shen等人，2021b)，结合了传统基于图的神经模型和基于递归的神经模型的优点。

多模式方法：由于情绪和面部线索之间的高度相关性(ekman，1993)，融合模式以提高情绪识别引起了人们极大的兴趣(sebe等人，2005)。一些最初的方法包括datcu和rothkrantz(2014)，他们将声音信息与视觉线索相融合，用于情感识别。wollmer等人(2010年)在多模态环境中使用语境信息进行情感识别。在过去十年中，深度学习的发展推动了多模式环境下的广泛方法。内存融合网络(mfn)(zadeh等人，2018a)提出使用多视图门控存储器同步多模式序列，存储随时间变化的视图内和视图间交互。图形多功能神经网络(bagher-zadeh等人，2018)扩展了多功能神经网络的概念，并引入了动态融合图(dfg)，该图学习对n-模态相互作用进行建模，并动态改变其结构，以根据推理过程中每个n-模态动态的重要性选择融合图。会话记忆网络(cmn)(hazarika等人，2018b)利用会话历史中的语境信息，并使用选通递归单元将每个说话人过去的话语建模为记忆。张量融合网络(tfn)(zadeh等人，2017)使用模式的外积。其他流行的方法包括dialoguernenn(majumder等人，2019)，该方法提出了不同话语的注意力机制，并通过其局部gru和全局gru模拟情感动态。b2+b4(kumar和vepa，2020)，使用条件选通机制学习跨模态信息。bc lstm(poria等人，2017)提出了一种基于lstm的模型，该模型从周围的话语中捕获语境信息。multilogue net(shenoy和sardana，2020)提出了一种基于语境感知rnn的解决方案，并将成对注意力用作所有三种模式(音频、视频和文本)的融合机制。最近，(delbrouck等人2020)提出了tbje，这是一种基于transformer的架构，具有模块化共同注意力(yu等人，2019)，用于联合编码多种模式。consk gcn(fu等人，2021)使用带知识图的图卷积网络(gcn)。lian等人(2020年)使用基于gnn的架构，使用文本和语音模式进行情感识别。af can(wang等人，2021a)提出了基于语境注意的rnn，用于建模说话人之间的交易和依赖。

实验细节

实现细节：对于IEMOCAP，使用OPENSMILE提取音频特征(尺寸100)(EYBEN等人，2010)，从BALTRUSAITIS等人(2018)提取视频特征(尺寸512)，使用SBERT提取文本特征(尺寸768)(REIMERS和GUREVYCH，2019)。

MOSEI数据集的音频特征取自DELBROUCK等人(2020)，使用80个滤波器组的LIBROSA(MCFEE等人，2015)提取，使特征向量大小为80。视频特征(尺寸35)取自ZADEH等人(2018B)。使用SBERT获得文本特征(大小768)。语篇特征是句子层面的静态特征。对于音频和视觉模式，我们通过平均所有标记级特征来使用句子/话语级特征。

我们通过级联融合了所有可用模式(a(音频)+t(文本)+v(视频)：atv)的功能。我们还探讨了其他融合机制(附录g.1)。然而，级联提供了最好的性能。我们使用贝叶斯优化技术对我们提出的模型进行了超参数搜索(详见附录a)。

基线

基线：通过将COGMEN与许多基线模型进行比较，我们对COGMEN进行了全面评估。对于IEMOCAP，我们将我们的模型与现有的多模式框架进行比较(表2)，其中包括DIALOGUERNN(MAJUMDER等人，2019)、 BC-LSTM(PORIA等人，2017)、CHFUSION(MAJUMDER等人，2018)、MEMNET(SUKHBATAR等人，2015)、TFN(ZADEH等人，2017)、MFN(ZADEH等人，2018A)、CMN(HAZARIKA等人，2018B)、ICON(HAZARIKA等人，2018A)和AF-CAN(王等人，2021B)。

对于MOSEI，COGMEN与多模式模型进行了比较(表4)，包括多模式网络(SHENOY和SARDANA，2020年)和TBJE(DELBROUCK等人，2020年)(关于基线的详细信息和分析，见§6)。