【论文速递】EMNLP2022-随机模态缺失情况下的多模态情感分析

提出EMMR网络解决模态缺失下的情感极性不一致问题,通过重建关键缺失模态特征,并结合ensemble learning提高分类准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

【论文速递】EMNLP2022-随机模态缺失情况下的多模态情感分析

【论文速递】 EMNLP2022-EMMR:Mitigating Inconsistencies in Multimodal Sentiment Analysis under Uncertain Missing Modalities

【论文原文】:EMNLP2022 - Mitigating Inconsistencies in Multimodal Sentiment Analysis under Uncertain Missing Modalities

论文:https://aclanthology.org/2022.emnlp-main.189/
代码:https://github.com/JaydenZeng/EMMR

博主关键词:多模态情感分析,模态缺失重建, ensemble learning

摘要

模态缺失问题是多模态情感分析任务(MSA)的常见问题。整体的情感极性可能会因某一模态的缺失而发生变化,出现情感不一致的现象(inconsistency phenomenon)。缺少的,能够决定整体情感极性的模态,被称为关键缺失模态(key missing modality)。以往工作忽略了情感不一致现象(inconsistency phenomenon),简单地丢弃缺失模态,仅从现有的模态中生成相关特征。本文提出了一个ensemble-based 缺失模态重建网络(EMMR)来检测并恢复关键缺失模态(key missing modality)的语义特征。首先, EMMR通过骨干编码器-解码器网络来学习其余模态的联合表征。然后,基于重建的缺失模态特征,本文通过检查语义一致性以确定缺失模态是否对整体情感极性的判定起关键作用。在确定关键缺失模态后,本文引入 多个 encoder-decoder 模型,以late fusion的方式做出更好的决策

关键缺失模态影响总体情感极性

简介

经典的多模态情感分析方法根据所有模态的信息来做出判断,但很多场景中部分模态往往是缺失的。尽管有一些方法关注于缺失模态的重建,但是它们忽略了,模态缺失所带来的情感极性的反转现象。例如Figure 1 中,当声音,文本,图片三模态信息完整时,展现出中性的(Neutral)情感;当声音模态的信息缺失时,仅凭文本和图像,更倾向于展示出负面的(Negative)情感。这种情感极性不一致的现象(inconsistency phenomenon)表明在这个例子中,声音模态是关键缺失模态(key missing modality)。此外,当不同模态表现出略微不同的情感极性时,如何在多模态信息之间做好取舍,也是待解决的问题。

在本文中,作者提出了Ensemble-based Missing Modality Reconstruction (EMMR) 网络来解决情感极性不一致的现象。 对于输入的一条多模态样本: S = [Xv, Xa, Xt] (vedio,acoustic,text),EMMR 通过基于transformer结构的encoder-decoder骨干网络来恢复缺失模态信息(图例中该样本缺失的模态信息是声音模态Xa),并在除分类损失外增加两个loss, Lforward和 Lbackword辅助缺失模态信息的重建:
在这里插入图片描述

骨干网络中引入了已经预训练好的Pre-trained Network,该网络在预训练时利用所有模态的信息(不存在缺失模态),并在训练完成后冻结参数。 引入它的目的是利用它的预训练知识指导骨干网络中的Encoder,通过将Pre-trained Network 的输出与骨干网络Encoder的输出计算KL散度损失作为 Lforward,达到迁移预训练知识的目的。类似地,将处理后的多模态输入特征与骨干网络decoder的输出计算KL散度损失,作为 Lbackward, 以更好地监督特征重建的过程。

在完成缺失模态特征的重建之后,EMMR重点关注情感极性是否发生反转,并据此确定缺失模态是否为关键模态,以采取不同的ensemble策略。用骨干网络decoder的输出代替缺失的模态信息后,将恢复后的完备模态信息通过多头注意力与全连接层进行标签预测,若预测的标签与基于除缺失模态外的剩余模态信息预测的标签不一致,则认定缺失模态为关键模态,并引入 多个模型,包括AutoEncoder (AE),Missing Modality Imagination Network (MMIN), Transformer-based encoder-decoder model (TF) 以late fusion的方式做出更好的决策,如下Figure 3所示:
在这里插入图片描述
由于ensemble learning结合了多个模型的信息知识,并以自适应的方式实现更好的预测性能,所以它可以基于恢复的特征有效地缓解情感极性不一致的现象。EMMR检查恢复的完整模态与原始可用模态之间的语义一致性(预测标签的差异)。一旦它们不一致,则对TF、AE。和MMIN进行进一步的整合来决策。在ensemble learning中,多种方法的整体表现会比单一方法的表现要好,EMMR将三种提取的特征根据相应的注意力进行组合,以获取最后的预测结果。

文章的主要创新点如下:

  • 本文提出EMMR来解决模态信息丢失情况下的多模态情感分析任务。以往工作更多的关注于缺失模态信息的重建,而本文进一步考虑到缺失的模态可能引起情感极性的不一致,并对此情况分别讨论。
  • 在出现情感极性不一致的情况下,本文引入Auto Encoder-based model 和transformer-based model,并针对情感极性不一致的样本采用ensemble learning以改善分类性能
  • 在多模态情感分析数据集 CMU-MOSI 和IEMOCAP,本文方法取得了新的SOTA效果,特别是在CMU-MOSI的M-F1指标上取得大幅提升(9%)

【社区访问】

【论文速递 | 精选】【论文速递 | 精选】

【论文速递 | 精选】阅读原文访问社区
https://bbs.csdn.net/forums/paper

### 如何处理多模态情感分析中的模态缺失问题 #### 使用监督信号与前向差分损失优化模型性能 为了应对模态缺失带来的挑战,可以采用一种基于监督信号的方法来训练模型。具体来说,在存在完整模态情况下,利用这些完整的模态输出作为“监督信号”。当遇到部分模态缺失的情形时,则可以通过比较由其他可用模态产生的特征与理想状态下的特征之间的差异来进行调整[^3]。 对于这种情况,引入了前向差分损失(Forward Loss),这是一种专门用来衡量在有无特定模态条件下所得到表示之间差距的技术指标。通过最小化这种差距,可以使模型即使是在某些输入信息不全的状态下也能保持较好的泛化能力。 ```python import torch.nn as nn class ForwardLoss(nn.Module): def __init__(self): super(ForwardLoss, self).__init__() def forward(self, complete_representation, incomplete_representation): loss = (complete_representation - incomplete_representation).pow(2).mean() return loss ``` #### 构建自适应框架以支持动态模态组合 考虑到实际应用场景中可能存在各种各样的模态配置变化情况,构建一个灵活且可扩展的架构至关重要。该架构应该具备自动检测当前存在的所有有效模态并据此调整内部工作流程的能力。例如,在电商场景下的视频内容推荐系统里,可能会碰到缺少商品描述文字、封面图片或是评论区互动记录等问题;此时就需要设计一套机制使得整个体系仍然能正常运作而不至于因为个别组件失效而崩溃[^4]。 为此,可以在预处理阶段就对各个潜在可能用到的信息源做一次全面扫描,并标记哪些是确实可以获得的有效资源。之后再依据这个清单去决定后续操作的具体细节——比如选择合适的特征抽取器或者是设定权重分配策略等。 ```python def adaptive_preprocessing(modalities_available): processed_data = {} if 'text' in modalities_available: # Process text data... pass if 'image' in modalities_available: # Process image data... pass if 'audio' in modalities_available: # Process audio data... pass return processed_data ```
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值