ACL2023: ConFEDE: Contrastive Feature Decomposition for Multimodal SentimentAnalysis

作者意图

作者认为MSA(多模态情感分析)严重依赖于提取出的特征的质量,而特征又可以分为跨模态一致的不变特征(共有特征)和特定模态的特征(单模态的独有特征)。基于此作者提出了ConFEDE模型,该模型对比之前方法能够更好的提取共有特征和独有特征。

创新点

训练方法和损失函数的创新

方法

模型结构如上图所示。简单来说作者首先从文本,视觉和音频三种模态的信息中提取特征,随后将每种模态的特征输入到两个不同的线性层中获得共有特征(T,V,A)_{S}和独有特征(T,V,A)_{d}。随后根据共有特征和独有特征计算出三种不同的损失,并采取加权求和的方法获得最终的损失。计算公式如下:

其中L_{pred}为结构图中的Prediction Loss,L_{uni}为图中的Unimodal Prediction Loss,L_{cl}为图中的Contrastive Loss. \beta _{uni}文中设置为0.01,\beta _{cl}文中设置为0.1.

L_{pred}是一种均方差损失,计算公式如下:

n代表批次的大小,y_{m}^{i}代表ground truth。(简单来说就是三种模态的共有特征和独有特征拼接起来输入到MLP中获得分类结果。)

L_{uni}是一种欧氏距离损失,计算公式如下:

n代表批次大小,y_{m}^{i}代表整条信息的ground truth,而y_{t,v,a}^{i}代表单模态特征的ground truth。如果数据集中没有单模态特征的ground truth那么则用y_{m}^{i}代替y_{t,v,a}^{i}。(简单来说就是分别将三种模态的共有特征和独有特征输入到MLP中获得分类结果。随后使用y_{m}^{i}计算共有特征的损失,使用y_{t,v,a}^{i}计算独有特征的损失。)注意:此处L_{uni}的公式表达可能存在错误,缺少一个累计求和。实际表达应该如下所示。(个人理解)

L_{cl}使用了一种名为NT-Xent的对比损失,计算公式如下:

该损失的具体原理大家可以看原论文,在此处我主要说明作者是如何使用的。注意:此处\zeta _{cl}^{i}的公式表达可能存在错误,应该将(a,p)\in P^i修改为(a,p)\in N^i \cup P^i。原始的NT-Xent为:。(个人理解)

此处N^{i}代表负例集合,P^{i}代表正例集合。正负例集合均有“模态内”和“模态间”两部分组成,公式表示如下:

(P,N)_{intra}代表“模态内”,(P,N)_{inter}代表“模态间”。两者的具体设置如下:

从公式中可以看出,P_{intra}是由一条信息中不同模态的共有特征组成的。N_{intra}是由一条信息中文本模态的共有特征与所有模态的独有特征组成的。(P,N)_{inter}则是使用不同信息间的共有特征组成的。公式中的Neighbor^{i}代表第i条信息的正例集合,Outlier^{i}代表第i条信息的负例集合。

Neighbor^{i}Outlier^{i}是作者通过计算第i条信息与其余所有信息之间的余弦相似度后,从中取出两个拥有同样标签,并且余弦相似度最高的两条信息组成第i条信息的Neighbor^{i}。从中取出两个拥有不同标签,同时余弦相似度最高的两条信息以及余弦相似度较低的两条信息,一共四条信息组成第i条信息的Outlier^{i}.(这种设置可以充分利用对比学习的有点,拉近模态内共有特征之间的距离,拉开共有特征与独有特征之间的距离。而模态间由于负例的设置,可以加大训练任务的难度,使模型可以得到更好的训练) 余弦相似度的计算公式如下:

实验

作者在CH-SIMS(包含单模态标签),MOSI和MOSEI三个数据集上测试了自己模型的表现。

数据集原论文:

CH-SIMS:Ch-sims: A chinese multimodal sentiment analysis dataset with fine-grained annotation of modality

MOSI: Multimodal sentiment intensity analysis in videos: Facial gestures and verbal messages.

MOSEI: Multimodal language analysis in the wild: Cmumosei dataset and interpretable dynamic fusion graph.

实验结果:

从结果中可以看出,模型在CH-SIMS数据集上所获得提升要远远高于其余两个数据集,这主要是因为该数据集包含单模态标签,而其余两个数据集中不包含。因此,该方法在一定程度上依赖于单模态标签的存在,对数据集的要求比较高。

  • 22
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值