【论文阅读笔记】MissModal: Increasing Robustness to Missing Modality in Multimodal Sentiment Analysis

Lin R, Hu H. MissModal: Increasing Robustness to Missing Modality in Multimodal Sentiment Analysis[J]. Transactions of the Association for Computational Linguistics, 2023, 11: 1686-1702.

这篇论文由中山大学的林荣昊和胡海峰撰写,主要聚焦于提高多模态机器学习在多模态情感分析(MSA)领域的鲁棒性。这篇论文的核心思想是提出了一种新的多模态表示学习方法——MissModal,旨在解决多模态情感分析(MSA)任务中遇到的模态缺失问题。该方法通过引入三种创新性的损失函数——几何对比损失、分布距离损失和情感语义损失,有效地对齐完整和缺失模态的表示,从而提高模型在处理不完整模态数据时的性能和准确性。此外,通过在两个主要的MSA数据集上进行广泛实验,MissModal证明了其在应对模态缺失情况下的优越性能,展示了在真实世界应用中处理不完整多模态数据的潜力。以下是对其内容的总结:

【摘要与引言】

  • 研究问题:论文解决了MSA中一个重要问题:输入数据的缺失模态(如文本、音频、视觉)会因输入形式多样和语义信息缺失而显著影响性能。
  • 现有MSA模型:现有模型通过整合不同模态的语义信息来预测情绪强度,但在训练和测试阶段都需要所有模态的完整性,这使得它们对缺失模态非常敏感。

【方法论】

image-20231228082102324

  • MissModal方法:论文提出了一种新的表示学习方法,名为MissModal,旨在提高分类任务中对缺失模态的鲁棒性。这种方法无需更改多模态融合阶段,因此在多模态学习系统中具有普遍性。

  • 任务定义:目标是将多模态数据(文本、音频、视觉)映射成可以推断最终情感分数的表示,适用于完整和不完整的模态。

  • 缺失模态的约束:这是本文的主要创新点,提出了三个约束,以将缺失模态的表示与完整模态的表示对齐:

    1. 几何对比损失

      • 目的:旨在减少模态特定表示与完整表示之间的差距,从而在分布空间中实现更好的对齐。

      • 原理:通过对比学习,将具有完整模态的多模态表示与缺失某些模态的表示进行对比,以几何方式对来自同一话语样本的表示进行对齐。

      • 实现方法:在一个小批量数据中,定义正样本对为具有完整模态和缺失模态的同一样本,负样本对为来自不同样本的表示。然后计算这些对之间的相似度,以增强模型对于完整模态信息向缺失模态表示的迁移能力,使得缺失模态的处理更加可辨识。

    2. 分布距离损失:减少来自同一样本的缺失模态和完整模态表示之间的分布距离。

      • 目的:旨在减少完整模态表示和缺失模态表示之间的分布距离,从而提高模型对缺失模态的适应能力。
      • 实现方法:通过计算并最小化完整模态表示和缺失模态表示之间的L2距离(即欧几里得距离),使得即使在某些模态缺失的情况下,模型也能更好地维持表示的一致性。
    3. 情感语义损失

      • 目的:旨在保持在缺失模态情况下对情感极性推断的一致性。
      • 实现方法:利用真实的情感标签来监督缺失模态表示的情感预测。这意味着即使在某些模态信息缺失的情况下,模型也能准确地预测话语的情感极性。

【实验设置】

  • 数据集和评估指标

    • 使用的数据集:实验在两个基准MSA研究数据集上进行,分别是CMU-MOSI和CMU-MOSEI。CMU-MOSI包含来自93个YouTube电影评论视频的2199个独白话语,涉及89位评论者。CMU-MOSEI扩展了多模态数据,包括来自3228个视频、1000位不同YouTube演讲者的约20,000个视频剪辑,涵盖250个不同主题。

      • CMU-MOSI: 用于训练的样本为1284个,验证样本为229个,测试样本为686个。
      • CMU-MOSEI: 用于训练的样本为16326个,验证样本为1871个,测试样本为4659个。
    • 情感标注:两个数据集的话语都标注了情感强度,评分范围从-3到+3,其中极性表示积极/消极,绝对值表示表达情感的相对强度。

    • 评估指标:使用了多种评估指标,包括七类情感分类准确度(Acc7)、二元分类准确度(Acc2)、加权F1分数(F1)以及均方误差(MAE)和皮尔逊相关系数(Corr)。

  • 基线模型

    • MSA基线模型的分类:研究者将用于比较的MSA基线模型分为多个类别,包括简单的早期和晚期融合模型、基于张量的融合模型、基于图的融合模型、生成和翻译模型、显式的内部和跨模态动态操控模型以及基于变压器的融合模型等。
  • 实施细节

    • 输入编码和数据预处理:使用预训练的BERT-base-uncased模型来编码文本输入,并利用CMU-Multimodal SDK对音频和视觉数据进行预处理。
    • 实验硬件和软件环境:实验在配备CUDA 10.2的单个GTX 1080Ti GPU上进行。
    • 超参数设置:执行了五十次随机网格搜索以找到包括α和β在内的最佳超参数设置。
    • 优化器和学习率:使用AdamW作为优化器,BERT参数的学习率为5e-5,而其他参数在MOSI和MOSEI数据集上分别为5e-4和1e-3。
    • 完整和缺失模态设置:在实验中,保留了训练集的模态完整性以微调模型,然后在验证和测试集上以不同的缺失率冻结模型,以评估在多种模态缺失情况下的性能。
  • 24
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值