Abstract:最近,对比学习在多模态情感分析(MSA)中开始流行起来。然而,大多数现有的基于对比学习的MSA方法缺乏对对比学习表征空间中具有不同情绪强度差异的样本对分布的更详细的学习。此外,对通过对比学习训练获得的每种情态表征的融合进行了有限的研究。本文提出了一种基于情感强度引导的对比学习(CLGSI)的多模态情感分析新框架。首先,所提出的基于情绪强度的对比学习根据情绪强度的差异选择正负样本对,并相应地分配相应的权重。随后,我们提出了一种新的多模态表示融合机制,称为全局局部精细知识(GLFK),其提取不同模态表示之间的共同特征。同时,每个单峰编码器输出由多层感知器(MLP)单独处理,以提取每种模态的特定特征。最后,使用共同特征和特定特征的联合学习来预测情绪强度。CLGSI的有效性在两个英文数据集MOSI和MOSEI以及一个中文数据集SIMS上进行了评估。我们取得了有竞争力的实验结果,这证明了我们的方法具有很强的泛化性能。
一、引言
近年来,对比学习在MSA领域越来越受欢迎。基于对比学习的MSA方法涉及三个重要问题:(1)正负样本对的选择,(2)在学习过程中对不同正负样本的关注,(3)对比学习后获得的情态表征的整合。
本文解决问题:
1.现有的大多数研究都同等对待不同样本对的学习,缺乏对表示空间中具有不同情绪强度差异的样本对分布的详细了解。
2.现有研究通过对比学习训练获得的模态表示被简单地连接并输入到MLP中,这缺乏对表示信息整合的进一步探索,可能会限制模型的泛化性能。
我们的方法:
1.我们提出了以情感强度为指导的对比学习。在对比学习中,以情绪强度差异为指导选择正负样本对,并相应地分配相应的权重。这丰富了细粒度信息的对比学习过程。
2.我们提出了一种模仿人类认知过程的多模态表示融合机制——全局局部精细知识(GLFK)。我们使用GLFK机制来融合通过对比学习训练获得的每种模态的表示,以提取不同模态的共同特征。同时,我们使用MLP来处理每个模态编码器的输出,以提取每个模态的特定特征。最后,使用共同特征和特定特征的联合学习来预测情绪强度。
二、方法
本文提出了一种基于情感强度引导的对比学习框架(CLGSI)用于多模态情感分析(MSA)。该方法通过选择不同情感强度的样本对,并结合全局-局部-细粒度知识的表示融合机制,提高了对不同模态特征的学习能力。
总体框架:
输入特征处理:文本、音频和视频的输入通过各自的编码器(如BERT、Transformer)进行处理,获得相应的特征表示。
特征提取模块:
共同特征提取:将来自不同模态的特征通过对比学习映射到相同的表示空间,以便于融合。
对于文本模态,使用BERT模型的[CLS]向量(即文本的整体表示)作为共同特征向量。对于视频模态和音频模态,提取Transformer编码器的最后一层输出作为视频的共同特征向量。将这些模态的向量通过一个全连接层(FC层)进行转换,使它们的维度统一为 dc,并通过ReLU激活函数进行非线性映射,得到三个共同特征向量。使用对比学习来增强来自不同模态的信息的对齐,使得这些不同模态的特征能够在同一个表示空间中更好地对齐。这一过程是通过情感强度的引导来实现的,增强了特征融合的效果。之后进行特征融合。
特定特征提取:通过专门的子网络进一步提取每种模态的情感特征。
对于每个模态(文本、视频、音频),采用一个子网络来独立提取其特定的情感特征。这些特征能够捕捉每个模态在情感分析任务中的独特信息。似于共同特征提取中的做法,特定特征提取也采用了GLFK机制。这个机制通过不同的卷积操作(如1×1卷积)对每个模态的特征进行处理,帮助更好地融合模态内部的信息。对于每种模态的编码器输出,通过MLP进一步处理和优化特定模态的特征表示。MLP帮助提取出更加精细的模态特征,从而增强模型对每个模态的情感理解能力。最终,每个模态的特定特征被提取出来,并与共同特征一起进行联合学习,从而预测情感强度。通过这种方式,模型不仅能够捕捉跨模态的共同信息,还能够独立地理解每个模态的情感特点。
GLFK机制(Global-Local-Fine-Knowledge)是该模型中的核心特征提取和融合机制,旨在通过多层次的信息提取来提高情感分析的性能。GLFK机制通过将信息分为全局(Global)、局部(Local)、细粒度(Fine)和知识(Knowledge)四个阶段,有效地从不同粒度上提取和融合特征。
1. 全局(Global)阶段:
采用1×1卷积操作对输入特征进行压缩,从而获得对整个输入信息的整体理解。
2. 局部(Local)阶段:
通过第二个1×1卷积,进一步细化信息。继续进行卷积操作,获取更为精细的局部信息。
3. 细粒度(Fine)阶段:
在细粒度阶段,继续对信息进行处理,提取更为精确的细节信息。这些细节能够帮助模型从多个维度理解情感表达,特别是对情感的细微变化有更好的识别能力。
4. 知识(Knowledge)阶段:
最终,通过一个1×1卷积操作压缩,得到知识层面的特征。
情感强度指导下的对比学习:
传统的对比学习方法通常关注的是样本对之间的相似性或差异性,但在情感分析中,样本之间的情感强度差异(如情感的正负程度)往往具有更重要的意义。CLGSI利用情感强度来引导对比学习,特别是通过情感强度的差异来调节学习过程中的样本选择与权重分配。
在CLGSI中,样本对的选择是根据情感强度的差异来决定的。例如,如果两个样本的情感强度差异较大(如一个为负面情感、一个为强烈的正面情感),模型就会赋予该对样本更大的权重,使得对这对样本的学习更加重视。
这样,模型会更加注重那些情感强度差异较大的样本对,因为它们在表征情感空间的分布中通常包含更多有用的区分信息。
在对比学习的优化过程中,CLGSI通过引入情感强度差异的权重,使得模型能够在训练时不仅学习到样本间的相似性,还能够有效捕捉到不同情感强度样本间的细微差异,从而提高模型对情感细节的敏感度
三、实验
-
数据集与评价指标
- 实验在三个数据集上进行验证:MOSI(英文数据集)、MOSEI(英文数据集)和SIMS(中文数据集)。
- 对于回归任务,评价指标包括平均绝对误差(MAE)和皮尔逊相关系数(Corr)。
- 对于分类任务,评价指标包括多分类准确率和F1分数。特别地,SIMS数据集使用了正负类(包括零)的准确率和F1分数,而MOSI和MOSEI使用了负/正和负/非负的分类。
四、结论
本文提出的模型(CLGSI)在多个多模态情感分析任务中表现出色,尤其在MOSI、MOSEI和SIMS数据集上,CLGSI超越了现有的最先进方法,展示了强大的性能和优秀的跨模态学习能力。通过引入基于情感强度的对比学习机制,模型能够更好地捕捉和融合多模态数据中的情感信息。对比学习帮助模型更有效地理解和区分情感的细微差异,从而提升了情感分析的准确性。