作者意图
作者认为MSA(多模态情感分析)严重依赖于提取出的特征的质量,而特征又可以分为跨模态一致的不变特征(共有特征)和特定模态的特征(单模态的独有特征)。基于此作者提出了ConFEDE模型,该模型对比之前方法能够更好的提取共有特征和独有特征。
创新点
训练方法和损失函数的创新
方法
模型结构如上图所示。简单来说作者首先从文本,视觉和音频三种模态的信息中提取特征,随后将每种模态的特征输入到两个不同的线性层中获得共有特征和独有特征
。随后根据共有特征和独有特征计算出三种不同的损失,并采取加权求和的方法获得最终的损失。计算公式如下:
其中为结构图中的Prediction Loss,
为图中的Unimodal Prediction Loss,
为图中的Contrastive Loss.
文中设置为0.01,
文中设置为0.1.
是一种均方差损失,计算公式如下:
n代表批次的大小,代表ground truth。(简单来说就是三种模态的共有特征和独有特征拼接起来输入到MLP中获得分类结果。)
是一种欧氏距离损失,计算公式如下:
n代表批次大小,代表整条信息的ground truth,而
代表单模态特征的ground truth。如果数据集中没有单模态特征的ground truth那么则用
代替
。(简单来说就是分别将三种模态的共有特征和独有特征输入到MLP中获得分类结果。随后使用
计算共有特征的损失,使用
计算独有特征的损失。)注意:此处
的公式表达可能存在错误,缺少一个累计求和。实际表达应该如下所示。(个人理解)
使用了一种名为NT-Xent的对比损失,计算公式如下:
该损失的具体原理大家可以看原论文,在此处我主要说明作者是如何使用的。注意:此处的公式表达可能存在错误,应该将
修改为
。原始的NT-Xent为:。(个人理解)
此处代表负例集合,
代表正例集合。正负例集合均有“模态内”和“模态间”两部分组成,公式表示如下:
代表“模态内”,
代表“模态间”。两者的具体设置如下:
从公式中可以看出,是由一条信息中不同模态的共有特征组成的。
是由一条信息中文本模态的共有特征与所有模态的独有特征组成的。
则是使用不同信息间的共有特征组成的。公式中的
代表第i条信息的正例集合,
代表第i条信息的负例集合。
和
是作者通过计算第i条信息与其余所有信息之间的余弦相似度后,从中取出两个拥有同样标签,并且余弦相似度最高的两条信息组成第i条信息的
。从中取出两个拥有不同标签,同时余弦相似度最高的两条信息以及余弦相似度较低的两条信息,一共四条信息组成第i条信息的
.(这种设置可以充分利用对比学习的有点,拉近模态内共有特征之间的距离,拉开共有特征与独有特征之间的距离。而模态间由于负例的设置,可以加大训练任务的难度,使模型可以得到更好的训练) 余弦相似度的计算公式如下:
实验
作者在CH-SIMS(包含单模态标签),MOSI和MOSEI三个数据集上测试了自己模型的表现。
数据集原论文:
CH-SIMS:Ch-sims: A chinese multimodal sentiment analysis dataset with fine-grained annotation of modality
MOSI: Multimodal sentiment intensity analysis in videos: Facial gestures and verbal messages.
MOSEI: Multimodal language analysis in the wild: Cmumosei dataset and interpretable dynamic fusion graph.
实验结果:
从结果中可以看出,模型在CH-SIMS数据集上所获得提升要远远高于其余两个数据集,这主要是因为该数据集包含单模态标签,而其余两个数据集中不包含。因此,该方法在一定程度上依赖于单模态标签的存在,对数据集的要求比较高。