ACL2023: ConFEDE: Contrastive Feature Decomposition for Multimodal SentimentAnalysis

最新推荐文章于 2024-06-09 09:44:41 发布

千千万万啊

最新推荐文章于 2024-06-09 09:44:41 发布

阅读量1.8k

点赞数 22

文章标签：人工智能机器学习深度学习

本文链接：https://blog.csdn.net/cc272018282/article/details/133270612

版权

作者意图

作者认为MSA（多模态情感分析）严重依赖于提取出的特征的质量，而特征又可以分为跨模态一致的不变特征（共有特征）和特定模态的特征（单模态的独有特征）。基于此作者提出了ConFEDE模型，该模型对比之前方法能够更好的提取共有特征和独有特征。

创新点

训练方法和损失函数的创新

方法

模型结构如上图所示。简单来说作者首先从文本，视觉和音频三种模态的信息中提取特征，随后将每种模态的特征输入到两个不同的线性层中获得共有特征 $(T,V,A)_{S}$ 和独有特征 $(T,V,A)_{d}$ 。随后根据共有特征和独有特征计算出三种不同的损失，并采取加权求和的方法获得最终的损失。计算公式如下：

其中 $L_{pred}$ 为结构图中的Prediction Loss， $L_{uni}$ 为图中的Unimodal Prediction Loss, $L_{cl}$ 为图中的Contrastive Loss. $\beta _{uni}$ 文中设置为0.01， $\beta _{cl}$ 文中设置为0.1.

$L_{pred}$ 是一种均方差损失，计算公式如下：

n代表批次的大小， $y_{m}^{i}$ 代表ground truth。（简单来说就是三种模态的共有特征和独有特征拼接起来输入到MLP中获得分类结果。）

$L_{uni}$ 是一种欧氏距离损失，计算公式如下：

n代表批次大小， $y_{m}^{i}$ 代表整条信息的ground truth，而 $y_{t,v,a}^{i}$ 代表单模态特征的ground truth。如果数据集中没有单模态特征的ground truth那么则用 $y_{m}^{i}$ 代替 $y_{t,v,a}^{i}$ 。（简单来说就是分别将三种模态的共有特征和独有特征输入到MLP中获得分类结果。随后使用 $y_{m}^{i}$ 计算共有特征的损失，使用 $y_{t,v,a}^{i}$ 计算独有特征的损失。）注意：此处 $L_{uni}$ 的公式表达可能存在错误，缺少一个累计求和。实际表达应该如下所示。（个人理解）

$L_{cl}$ 使用了一种名为NT-Xent的对比损失，计算公式如下：

该损失的具体原理大家可以看原论文，在此处我主要说明作者是如何使用的。注意：此处 $\zeta _{cl}^{i}$ 的公式表达可能存在错误，应该将 $(a,p)\in P^i$ 修改为 $(a,p)\in N^i \cup P^i$ 。原始的NT-Xent为：。（个人理解）

此处 $N^{i}$ 代表负例集合， $P^{i}$ 代表正例集合。正负例集合均有“模态内”和“模态间”两部分组成，公式表示如下：

$(P,N)_{intra}$ 代表“模态内”， $(P,N)_{inter}$ 代表“模态间”。两者的具体设置如下：

从公式中可以看出， $P_{intra}$ 是由一条信息中不同模态的共有特征组成的。 $N_{intra}$ 是由一条信息中文本模态的共有特征与所有模态的独有特征组成的。 $(P,N)_{inter}$ 则是使用不同信息间的共有特征组成的。公式中的 $Neighbor^{i}$ 代表第i条信息的正例集合， $Outlier^{i}$ 代表第i条信息的负例集合。

$Neighbor^{i}$ 和 $Outlier^{i}$ 是作者通过计算第i条信息与其余所有信息之间的余弦相似度后，从中取出两个拥有同样标签，并且余弦相似度最高的两条信息组成第i条信息的 $Neighbor^{i}$ 。从中取出两个拥有不同标签，同时余弦相似度最高的两条信息以及余弦相似度较低的两条信息，一共四条信息组成第i条信息的 $Outlier^{i}$ .（这种设置可以充分利用对比学习的有点，拉近模态内共有特征之间的距离，拉开共有特征与独有特征之间的距离。而模态间由于负例的设置，可以加大训练任务的难度，使模型可以得到更好的训练）余弦相似度的计算公式如下：

实验

作者在CH-SIMS（包含单模态标签），MOSI和MOSEI三个数据集上测试了自己模型的表现。

数据集原论文：

CH-SIMS：Ch-sims: A chinese multimodal sentiment analysis dataset with fine-grained annotation of modality

MOSI： Multimodal sentiment intensity analysis in videos: Facial gestures and verbal messages.

MOSEI: Multimodal language analysis in the wild: Cmumosei dataset and interpretable dynamic fusion graph.

实验结果：

从结果中可以看出，模型在CH-SIMS数据集上所获得提升要远远高于其余两个数据集，这主要是因为该数据集包含单模态标签，而其余两个数据集中不包含。因此，该方法在一定程度上依赖于单模态标签的存在，对数据集的要求比较高。

千千万万啊

关注

22
点赞
踩
27

收藏

觉得还不错? 一键收藏
1
评论
ACL2023: ConFEDE: Contrastive Feature Decomposition for Multimodal SentimentAnalysis

作者认为MSA（多模态情感分析）严重依赖于提取出的特征的质量，而特征又可以分为跨模态一致的不变特征（共有特征）和特定模态的特征（单模态的独有特征）。基于此作者提出了ConFEDE模型，该模型对比之前方法能够更好的提取共有特征和独有特征。训练方法和损失函数的创新。
复制链接

扫一扫