Semantic and Emotional Dual Channel for Emotion Recognition in Conversation
摘要
对话中的情绪识别(ERC)旨在准确识别对话内容中表达的情绪状态。现有的ERC方法虽然依赖于语义理解,但在面对不完整或具有误导性的语义信息时,往往会遇到挑战。此外,在处理情绪信息和语义信息之间的交互作用时,现有的方法往往难以有效地区分两者之间的复杂关系,这影响了情绪识别的准确性。为了解决传统模型在面对复杂的会话数据时遇到的语义误导和情绪交叉对话的问题,我们提出了一种语义和情绪双通道(SEDC)策略,以独立处理情绪和语义信息。在该策略下,当语义不明确或缺乏时,情感信息提供了一个辅助识别功能,提高了模型的准确性。我们的模型由两个模块组成:情绪处理模块通过对比学习准确捕捉每个话语的情绪特征,然后构建对话情感传播图,模拟对话中传递的情绪信息;语义处理模块结合外部知识库,通过知识增强策略来增强对话的语义表达。这种分而治之的方法允许我们更深入地分析复杂对话的情感和语义维度。在IEMOCAP、EmoryNLP、MELD和每日对话数据集上的实验结果表明,我们的方法显著优于现有技术,有效地提高了对话情绪识别的准确性。代码:https://anonymous.4open.science/r/SEDC-FCF1。
1. 介绍
对话中的情绪识别(ERC)是人工智能领域的一个重要研究领域,专注于识别在人类互动中所传达的情绪。该技术在不同领域拥有广泛的潜在应用程序,包括客户服务和支持系统、医疗保健和社交媒体分析。
在对话中的情绪识别领域,上下文信息的准确解释对于提高识别的准确性至关重要。最近的进展表明,许多模型旨在利用上下文信息来增强情绪识别能力。值得注意的是,DAG-ERC [1]创造性地利用图神经网络和递归神经网络之间的协同作用来建模对话中的上下文信息流,显著提高了识别准确性。为了解决早期模型在对话语义关系方面的局限性,CMCF-SRNet [2]使用了一个局部约束transformer和一个基于图的语义细化transformer,强调了复杂的语义关系理解在提高准确性方面的关键作用。除了上下文信息外,说话者的语言偏好和人格特征也起着至关重要的作用。因此,CoMPM [3]将说话人记忆与上下文信息集成,以优化性能。同样,DualGATs [4]通过检查话语结构和被说话者所感知的上下文来提高情绪识别的准确性,强调了深入的说话者属性分析的重要性。尽管有了这些进步,但对外部知识的结合仍未得到充分利用。COSMIC[5]展示了包括外部知识的重要性,如心理状态、事件和因果关系,对于全面理解动态对话和情感表达。然而,它只是简单地涉及到外部知识的整合。TCA-IGN [6]强调了在情绪识别中话语主题和逻辑的相关性,通过引入一个交互式图网络来探索主题和因果的见解。
然而,如图1所示,如果话语中的单词数量有限,缺乏上下文语义,或者话语中包含错误的语义,那么以往的方法在处理话语时往往无法准确地确定情绪状态。此外,这些传统的方法通常是在话语中同时处理情感信息和语义信息。然而,这种联合处理有时会降低情感识别的准确性,这是因为这两种信息之间复杂的相互作用。在话语缺乏清晰语义的情况下,利用情绪作为辅助信息可以有效地识别目标话语的情绪状态。因此,我们引入了一种新的方法,分离情感和语义信息的处理,以规避它们潜在的相互干扰,从而提高对话情绪识别性能。由于对话情感识别的复杂性——它整合了对话内容、上下文信息、个体特征和外部知识等多种元素——我们开发了两个不同的模块:情绪处理模块和语义处理模块。情绪处理模块采用对比学习方法,基于VAD模型分析情绪维度(效价、唤醒、主导地位)(如图2所示)。 由于在对话中,情感倾向相似的话语之间往往存在很强的相关性,例如,在愉快的交谈场景中,积极情绪的表达更为频繁,并建立起彼此之间更紧密的关系网络,这有助于交谈说话者保持情绪同步和话题连贯。然而,对话也包括一些不匹配的情绪表达或不相关的话题,这可能会干扰信息传递,并使情绪识别和解释复杂化。
在本研究中,我们引入了一种新的方法来解决ERC中情绪和语义信息相互干扰的重大挑战。我们的方法策略地分离了话语中的情感和语义内容,从而提高了情感识别的准确性。具体来说,我们利用先进的预训练语言模型RoBERTa [7]和COMET常识知识库[8]来提取话语的嵌入表示和相关的九种常识知识。这些提取的信息通过特殊设计的情感和语义处理模块进行精心处理。这一过程的关键是整合处理后的信息,以准确预测目标话语的情绪类别。
本文的主要贡献如下:
- 1)我们提出了一种对话策略中情绪识别的语义和情绪双通道,显著提高了情绪状态识别的准确性。该策略通过独立处理情绪和语义信息,有效地解决了传统模型在处理复杂对话数据中遇到的语义误导和情绪交叉干扰问题。
- 2)我们设计了一个情绪处理模块来强调情感上与目标话语相似的话语的重要性,并过滤掉与情绪上下文不匹配的信息。同时,考虑到对话内容、上下文信息、参与者特征和外部知识的重要性,我们设计了一个语义处理模块来增强对话的语义表征。
- 3)在IEMOCAP、EmoryNLP、MELD和DailyDiilog数据集上的实验结果验证了我们模型的有效性,表明我们的模型在所有数据集上都达到了领先水平。
2. 相关工作
2.1 上下文感知的情感识别方法
**上下文信息是对话中情绪识别的关键。**为了改进多方对话的处理和保持长期上下文,DialogXL [9]引入了改进的记忆机制和对话意识自我注意力机制,有效地提高了对对话结构的理解,特别是在处理多个参与者的复杂对话场景中。DAG-ERC [1]融合了图模型和递归神经模型的优势,提出了一种直观的方法来建模来自远近的上下文信息流,增强了捕获复杂对话结构的能力。然而,现有的方法在捕捉和整合情绪线索和理解背景方面仍然面临着挑战。DialogueCRN[10]引入了一个多轮推理模块,通过迭代执行直观检索和有意识推理来模拟人类的认知过程来解决这些挑战。面对处理非英语数据和提高模型鲁棒性的挑战,ComPm[3]尝试通过使用预先训练过的语言模型从记忆中提取外部知识来进行改进。FATRER [11]旨在通过引入一个全注意力的主题正则化器来提高模型的鲁棒性和准确性,特别是在对抗性攻击下。SCCL [12]利用预先训练好的知识适配器来注入语言和事实知识,从而帮助建模对话和丰富上下文。为了解决数据集中情绪分布不平衡的问题,CLED [13]采用了一种新的数据增强方法对对话中的情绪动态进行建模,并开发了一种ERC的监督对比学习方法。emoDARTS [14]利用可微分架构搜索(DARTS)优化的联合CNN和序列神经网络架构,自动选择最优的CNN和序列神经网络操作,实现了语音情绪识别性能的显著提高。
2.2 基于说话者特征的情绪识别方法
每个说话者的表达风格和个性对对话中的情绪识别也非常重要。 DialogueRNN[15]引入了一种创新的方法,跟踪说话者在对话中的状态,体现了对个性化处理的新理解。DialogueGCN[16]通过分析对话说话者与相互依赖之间的自我依赖,并对对话上下文进行建模,有效地克服了上下文传递的局限性,有效地克服了仅依赖于循环神经网络(RNNs)的方法的上下文传递的局限性。该方法显著提高了模型处理长距离依赖关系的能力,从而提高了情绪识别的准确性。DualGATs [4]侧重于话语结构和说话者感知语境,并通过图注意力网络显著提高了情绪识别的准确性。对于语境建模中多参与者知识与历史话语的因果一致性,TCA-IGN [6]引入了主题和因果感知的交互图网络,强调了主题一致性和因果关系的重要性。
2.3 多模态对话情绪识别
仅依赖于文本信息的建模在信息方面是有限的。 因此,UniMSE [17]在句法和语义层面上实现了模态融合,并引入了模态和样本之间的对比学习,以更有效地区分情绪和情绪之间的差异和一致性。MultiEMO [18]提出了一种利用基于多头交叉注意层的技术来融合文本、音频和视觉模态线索的技术,有效地捕获了不同模态之间的复杂映射关系。此外,一些模型在将卷积神经网络应用于处理结构化数据和提高模型灵活性方面取得了重大进展。尽管如此,因为图的层数增加,过度平滑成为了一个问题。Joyful [19]试图通过联合优化多模态融合和图对比学习来解决这一挑战,提出了一个全面的解决方案。此外,早期的研究通常是简单地结合不同模态的表示,忽略模态间的交互和上下文属性,导致信息冗余和缺乏对话语义一致性。因此,CMCF-SRNet [2]引入了一种跨模态局部约束transformer和一种基于图的语义细化transformer,以优化多模态数据与语义关系处理之间的交互。最近,MMPCGN [20]提出了一种多变量消息传递框架,有效地将异构信息集成到多模态关系图中,强调了在对话情绪识别中处理特征异质性的重要性。
2.4 结合常识知识的对话情绪识别方法
对话情感分析的复杂性超越了对话语的字面解释,包括对潜在的情感细微差别和上下文联系的阐明。 利用尖端的深度学习技术,最近的研究努力深入研究了利用常识知识来改进会话情绪识别的准确性和有效性。KET [21]创新了一种层次化的自注意力机制和语境感知的情绪地图注意机制,动态地注入外部常识知识,用于上下文话语分析。这种方法解决了传统方法中固有的局限性,特别是在上下文理解和情绪波动检测方面。进一步发展,COSMIC[5]通过合并多维常识成分,如心理状态、事件和因果关系,扩展了这些见解,以剖析对话参与者之间复杂的动态。然而,尽管COSMIC在人类对话中体现常识理解方面取得了进步,但它在直接话语知识互动方面表现出缺陷。为了解决这一差距,KI-NET [22]采取了一种精细的立场,将常识与情感词汇相结合,以增强语义深度,并设计一个自我匹配模块,增强话语-知识的相互作用,强调了将常识直接同化到话语分析中的关键作用。此外,AutoML-Emo [23]利用在情感一致性效应的引导下的AutoML框架,自主识别和部署最优的知识源和模型框架,从而提高了情感识别的准确性和操作效率。为了有效地添加辅助信息以提高每个话语的表示性能,CKGG [24]引入了一个常识知识图,将从外部知识图中检索到的常识知识连接起来。
3. 方法
3.1 模型概述
我们的模型围绕三个主要模块构建,如图3所示。首先是特征提取模块,利用了预先训练过的语言模型RoBERTa [7],和常识性知识框架COMET[8]。可以从每个话语中独立地提取语言特征和常识性知识特征,从而为模型提供了全面的语言理解和丰富的知识背景。随后,特征融合模块分为两个不同的子模块:一个专门用于情绪信息处理,另一个专门用于语义信息处理。情感信息处理子模块旨在通过对比学习从话语中获得情感表征。然后,它继续构建一个情感传播图,通过使用图卷积网络(GCN),促进建立话语之间的情感联系。同时,语义信息处理子模块侧重于话语中的语义意义的解剖,通过整合外部常识知识来增强语义表征。最终,分类模块融合了这两种类型的信息,以准确地确定在每个话语中表达的情绪。这种结构使模型能够准确地捕捉和表达对话中的情绪变化。
3.2 问题定义
给定一个对话表示为{(x1、f(x1))、(x2、f(x2)),…(xN、f(xN))},其中每个话语xi由ni词组成,记为xi = {w1、w2,…、wni }。函数f(·)将每个话语xi分配给它各自的说话者。每一个话都与一个特定的情感标签相关,如“沮丧”、“悲伤”等,其中Y表示所有情感标签的集合。对话中的情绪识别(ERC)的目的是准确地确定每个话语xi所传达的情绪标签yi。
3.3 特征提取模块
3.3.1 RoBERTa
我们利用预先训练好的语言模型RoBERTa来提取对话中每个话语的特征表示。RoBERTa编码器有助于抑制由词汇元素的多样性所引入的噪声。在情绪识别任务中,话语元素的可变性——如非正式表达、双关语和讽刺——经常会引入噪音,导致情绪识别的错误分类。RoBERTa编码器基于自注意力机制,对对话句子进行深度编码,自动捕获基本的语义特征,同时过滤出不相关或冗余的噪声成分。RoBERTa通过多层自我注意来平衡每个单词的重要性,减少了不同表达方式对情绪识别的干扰,从而有效地提高了模型的鲁棒性。对于任何给定的话语xi,我们准备特殊的标记“[CLS]”来构造输入序列,从而得到{[CLS],w1,w2,…,wni },其中“[CLS]”用于封装输入序列的整体表示。在将此序列输入RoBERTa模型后,我们从RoBERTa的最后一层获得对应于“[CLS]”标记的特征表示ui,这被用来作为话语的表达。该提取过程可表示如下:
其中,ui∈R Dx,Dx表示话语特征的维数。这个过程迭代地应用于对话中的每个话语,最终在整个对话中组装话语级特征集U所有= {u1,u2,…,uN }。
3.3.2 COMET
预先训练好的COMET模型,基于ATOMIC[25]知识图,作为我们提取常识知识的工具,增强了对话话语的上下文表示。在情绪识别过程中,我们的模型通过添加推理维度(如 xIntent, xReact, xWant, xAttr,
xNeed, xEffect, oReact, oEffect, and oWant)来整合常识知识,以提高其对不同情境下情绪的理解。为了更清楚地说明这一点,我们在表I中提供了一个自定义场景,其中包括所有推理维度:“PersonX在紧急情况下帮助人员。”在这个场景中,我们的模型,通过常识性推理模块,可以捕捉情感在不同的背景下的变化。例如,PersonX的意图(xIntenge)是支持PersonY,这可能会引起PersonY(oReact)的感激,并改善他们的关系(oEffect)。这些常识性推理维度的整合,使模型能够准确地捕捉到更复杂的情绪表达中不同角色之间的情绪反应和动态。
具体来说,对于每个话语特征表示ui,它与一组预定义的关系类型 r 结合起来,作为COMET模型的输入。该方法便于提取相关的一般知识特征。关系类型跨越了一系列类别,包括因果关系和对抗关系,总计九种不同的类型。利用COMET,对每个话语导出常识知识特征c K i,与特定的关系类型对齐,从而丰富话语表征。此过程可以形式化如下:
其中K∈{9种关系类型},⊕表示连接运算。在这些运算完成之后,得到整个会话的常识知识特征集,记为C K =c K 1,cK 2,…cK N,得到每种关系类型。
上述两步特征提取方法不仅仅是捕捉话语的直接语义内容;它通过注入常识知识,显著地增强了话语的上下文理解能力。通过将预先训练好的语言模型与常识性知识框架协同使用,我们的方法加强了在对话中进行精确的情绪状态识别的基础。这种集成为我们的模型提供了增强的能力,以有效地解释和理解复杂的动态对话。
3.4 情绪信息处理模块(EIPM)
为了捕捉话语中的情感细微差别,我们利用了Valence-Arousal-Dominance(VAD)[26]模型的三维情感空间,从而丰富了情感表征的表现性。此外,为了熟练地模拟对话中情绪信息的传递,我们通过设计一个有向情绪传播图和图卷积网络(GCN),提高了会话中情绪识别(ERC)任务的准确性和效率。具体的方法说明如下:
3.4.1 情绪学习模块
Valence-Arousal-Dominance(VAD)模型:首先,我们应用VAD模型将情绪状态映射到一个三维连续空间,以更详细地捕捉情绪的多样性。效价表示情绪的愉悦度,唤醒表示情绪唤醒的程度,支配性表示对情绪的控制强度,表二显示了IEMOCAP、EmoryNLP、MELD和DailyDialog数据集上各种情绪类别的VAD表示。VAD模型的显著优势在于,它能够超越传统的离散情绪分类标签,通过在3D空间中定位情绪点来揭示情绪状态之间的细微差异。这种表示允许在情绪维度上相似或相似的状态在模型的连续空间中具有较小的欧几里得距离,从而提供了情绪相对位置的定量视图,并允许模型捕捉情绪的详细和连续性质。
其中,“标签”代表了潜在的情绪标签的集合。
3.4.2 情感表征的增强对比学习
我们 通过线性变换将对话( U A l l U^All UAll)中的完整话语特征集转换为情感空间( U c o m U^com Ucom)中的统一表征 。具体来说,我们应用两层线性变换结合ReLU激活函数,允许模型动态调整情绪特征的权重分布,有效地整合不同的情绪表征。这一过程确保了情感空间中的表征不仅捕捉到了原始话语的情感特征,而且还保留了不同情绪之间的关系。
其中W1、b1、W2、b2表示模型中的可学习参数。
为了增强话语的情绪表征,我们采用了一种对比学习的方法。具体来说,它通过将目标话语ui的真实情绪标签分类为正性样本,并将不同于ui的标签分类为负性样本来实现这一点。这种优化驱动具有相同情绪标签的话语表征彼此接近,而具有不同情绪标签的话语表征彼此距离较远,提高了模型识别话语情绪中细微差异的能力。在对比学习中使用的损失函数定义如下:
其中 u i C o m u^{Com}_i uiCom表示目标话语的情绪表示, u + l a b e l u^{label}_+ u+label表示正性样本的VAD表示, u j l a b e l u^{label}_j ujlabel表示其他情绪的VAD表示,|Y |表示情绪标签类型的数量。
3.4.3 情感传播图的构建
在对话中,情感的传播和共鸣在形成深刻的交际联系中起着关键作用。语言不仅是说话者之间信息交流的媒介,而且可以促进情感的分享和传递,从而促进情感共鸣。特别是在以统一情绪倾向为特征的对话中,一致情绪的表达可以增强互动的活力,加强人际联系。
然而,对话的复杂性也表现在它们包含了一系列不同的话语元素,其中很大一部分可能偏离了流行的情感语调,或与中心主题无关。这些元素在对话中引入了噪音,潜在地阻碍了情感的无缝传递和理解,从而影响了对话的流畅性和连贯性。这一方面在以情感识别和情绪驱动的对话理解为中心的任务中具有特殊的意义,其中噪声的存在加剧了分析的复杂性和挑战。
为了应对这一挑战,我们提出构建一个情感传播图,以封装对话中情绪的流动和相关性。在这个图结构中,节点象征着个体的话语,而边则表示它们之间的情感联系。这种结构化的表征不仅有助于揭示对话中的情绪动态,而且还有效地区分了核心情绪话语和情绪混乱。
为了模拟对话中的情绪动态,我们定义了一个有向图G =(V,E),其中V构成了一组节点,每个节点代表单独的话语,E代表了一组边,表示这些话语之间的关系。每个节点vi∈V对应一个特定的话语,一个边eij(vi,vj)∈E描绘了节点vi和vj之间的邻居关系。然后根据情感相似度得分建立邻接矩阵A,如下:
其中,ϕ为预定义的阈值,sim(·)为余弦相似度公式。Ω (A)是用来防止过拟合的一个常规术语。如图4所示,我们演示了一个构建情感传播图的详细过程。对于对话中的每个句子,我们为它构造一个图,其中每个节点代表一个句子,通过情绪信息处理模块获得嵌入的情感话语。在子图中,边有两种方式进行连接:一种是根据话语的发生顺序来连接节点;另一种是基于话语之间的情感联系。具体来说,我们首先设置一个情感关联阈值,然后使用余弦相似度来计算目标话语和其他话语之间的情感相似度;如果相似度大于设置的阈值,则在两个话语之间构造一条边;如果低于阈值,则不构造任何边。此外,我们还设计了算法1,详细描述了如何根据上述规则建立目标话语和其他话语之间的联系,从而构建一个完整的情感传播图结构。
度矩阵D结构为对角矩阵,其中每个条目Dii代表连接到节点i的节点数量。
3.4.4 GCN中的情感信息传递
此外,为了细化情感信息的处理,提高情感表达的精度,我们利用了图卷积网络(GCN)。GCN擅长于复杂地探索节点之间复杂的关系和属性,并保留了图的固有结构属性。这种能力有助于全面理解和细化对话中的情感信息。通过GCN促进的复杂分析,我们提高了模型在情绪识别方面的熟练程度和情绪表征的准确性。同时,我们加深了对上下文关系的思考,最终达到了对情感的细致和精确的理解和表达。
通过图卷积网络(GCN),有效地促进了对话图结构中节点之间的情感信息的传递和更新。通过多层图卷积,基于话语间的交互作用对情感表征进行细化,得到语义丰富的情感表征。
其中,HL表示第L层节点的特征向量,HL+1表示第L + 1层卷积后的节点特征向量,WL表示第L层的卷积参数,σ表示激活函数,I是单位矩阵。最后,
u
L
,
i
C
o
m
u^{Com}_{L,i}
uL,iCom,i用于表示第i个话语的情感信息嵌入。
3.5 语义信息处理模块(SIPM)
该模块综合对话的上下文信息、说话者的风格特征,有效利用所选外部常识知识来增强情感识别性能,具体实现步骤如下:
3.5.1 上下文相关的特征提取
对话级特征提取:首先,整个对话通过双向长短期记忆网络(Bi-LSTM)[27]进行处理,以获得与上下文相关的特征。这一步确保了每个话语的特征表示不仅包含了自己的信息,而且还整合了对话中前话语和后话语的上下文信息。
其中uAll‘i∈R 表示具有上下文依赖性的话语嵌入,h All i∈R Dh表示Bi-LSTM的第i个隐藏状态。
说话者水平特征提取:每个说话者的话语通过一个独特的双向长短时记忆网络(Bi-LSTM)进行单独处理,以准确地捕捉到说话者独特的风格和表达习惯。
其中,u说话者‘i∈R 2Dh表示包含上下文相关关系的话语嵌入,h说话者i∈R Dh表示Bi-LSTM的第i个隐藏状态。
随后,将上下文相关的特征表示与说话者风格的特征表示合并,生成一个封装全局信息的全面特征表示。
3.5.2 语义增强模块
常识知识提取:我们使用COMET模型,这是一个高级的深度学习框架,从一个大规模的知识库中提取与特定话语相关的常识信息。该模型能够识别和提取9种不同类型的关系,涵盖了话语内容与外部知识之间的多维联系。为了保证所得信息的准确性和可用性,本研究提出了一种精心设计的、深思熟虑的知识选择策略。该策略系统地评估对话内容与一系列候选一般知识之间的相关性,从而根据已建立的评价标准过滤出与目标话语高度相关的知识实体。该策略的实施不仅提升了通用知识的整体质量,还通过确保所选知识与对话内容之间有强关联,显著增强了信息在对话理解中的作用。此外,这种方法促进了知识库中知识的动态应用,实现了对复杂对话情境的深入认知。
这个选择过程采用TopK(·)公式来识别表现出最高语义相似性的前K个常识知识片段。score(score,B) 表示A和B之间的相似性得分,Wa,Wb表示可学习参数。
3.5.3 多头注意力机制
利用多头注意机制[28],将每个话语的特征表示与其对应的最相关的常识知识相结合。因此,每个话语的增强特征表示不仅包括上下文信息和说话者的风格细微差别,同时也吸收了外部常识知识,从而产生了一个更全面的表达。
其中,Wi Q、Wi K、Wi V、WO表示模型内的可学习参数,n表示多头注意机制中的头数。
3.6 自适应学习模块和分类模块
自适应学习模块的主要功能是根据输入数据的不同类型和重要性,动态地调整模型参数。该模块通过以下步骤实现:首先对输入的情感信息和语义信息进行标准化,以确保不同类型的数据能够在同一尺度上进行比较和融合。然后根据输入数据的实时变化,为每种信息类型分配不同的权重。权重的分配可以通过训练过程中的反向传播算法进行自动调整,也可以根据预设的规则进行动态调整。最后,通过不断调整权重和模型参数,该模型可以自适应地优化其在不同上下文下的性能。
在模型训练阶段,采用交叉熵损失函数,描述为:
其中,B表示对话段落的总数,Bj表示第j次对话中的话语数。变量yj、k、yˆj、k分别对应于第j次对话中第k次话语的实际情绪标签和预测的标签分布。累计损失记为Ltotal,计算方法如下:
4. 结论
我们提出了一种创新的对话情感识别(ERC)方法,显著提高了情绪状态识别的准确性。该方法通过独立处理情感和语义信息,有效解决了传统模型在处理复杂对话数据时遇到的语义误导和情感串扰问题。具体而言,情感处理模块采用对比学习和图卷积网络(GCN)来精炼并映射对话中的情感动态;而语义处理模块则结合了RoBERTa和COMET编码器以及外部知识选择策略,以增强对话的语义深度和准确性。实验结果在IEMOCAP、EmoryNLP、MELD和DailyDialog数据集上验证了该方法在提高情感识别准确性方面的显著优势。此外,结果强调了情感信息和语义信息分别处理的重要性,这为未来复杂对话分析技术的发展奠定了基础。未来的工作将探索整合策略,以实现情感和语义信息的深度融合,并进一步优化情感识别系统的性能。