港中文、UCL、武大联手攻关！NeurIPS 2024 全新多模态情绪分析模型，精准应对不完整数据挑战！

最新推荐文章于 2024-12-12 13:45:42 发布

小马不会过河

最新推荐文章于 2024-12-12 13:45:42 发布

阅读量1.2k

点赞数 27

文章标签：人工智能学习 transformer 目标跟踪 1024程序员节

本文链接：https://blog.csdn.net/m0_59163425/article/details/143374416

版权

Towards Robust Multimodal Sentiment Analysis with Incomplete Data

论文链接:

https://arxiv.org/html/2409.20012v1

代码链接:

https://github.com/Haoyu-ha/LNLN

简介

多模态情绪分析 (MSA) 领域最近出现了一个新兴方向，旨在解决数据不完整问题。认识到语言模态通常包含密集的情绪信息，文中将其视为主导模态，并提出一种新的语言主导抗噪学习网络 (LNLN) 来实现稳健的 MSA。所提出的 LNLN 具有主导模态校正 (DMC) 模块和基于主导模态的多模态学习 (DMML) 模块，通过确保主导模态表示的质量来增强模型在各种噪声场景中的稳健性。与文献中现有的评估相比，LNLN 始终优于现有基线，提供了额外的统一性、透明度和公平性。

研究动机

针对多模态情绪分析中数据不完整这一主要问题，已有模型的评估指标并不一致，评估设置也不够全面。这种不一致性限制了有效的比较，并阻碍了该领域知识的传播。
假设当主导模态的完整性在不同噪声水平下得以保持时，模型的鲁棒性会提高。

论文贡献

全面评估MOSI、MOSEI 和 SIMS 数据集，引入随机数据缺失实例，比较现有方法在这些数据集上的性能。
提出语言主导的抗噪学习网络 (LNLN)，以增强 MSA 对不完整数据的鲁棒性。
大量的实验结果证明了 LNLN 在这些具有挑战性和广泛的评估指标上的卓越性能

方法

图1 总体框架

如图1所示，一个关键的初始步骤是形成一个随机数据缺失的多模态输入。输入准备好后，LNLN 首先利用嵌入层来标准化每个模态的维度，确保一致性。语言是 MSA 中的主导模态，主导模态校正 (DMC) 模块采用对抗性学习和动态加权增强策略来减轻噪声影响。该模块首先增强从语言模态计算出的主导特征的质量，然后将它们与基于主导模态的多模态学习 (DMML) 模块中的辅助模态（视觉和音频）集成，以实现有效的多模态融合和分类。此过程显着增强了 LNLN 对各种噪声水平的鲁棒性。此外，为了提高网络进行细粒度情绪分析的能力，实现了一个简单的重建器来重建缺失数据，进一步增强了系统的鲁棒性。

输入构建和多模态输入

随机数据丢失。遵循之前的协议，对于每个样本中的每种模态，随机删除了变化的信息比例（从 0% 到 100%）。具体来说，对于视觉和音频形式，用零填充删除的信息。对于语言模态，采用[UNK]填充擦除的信息，这表示BERT中的未知词。

多模态输入。对于数据集中的每个样本，合并来自三种模态的数据：语言、音频和视觉数据。每种模态都使用广泛使用的工具进行处理：使用 BERT 编码语言数据，通过 Librosa 提取音频特征，并使用 OpenFace 获得视觉特征。这些预处理后的输入表示为序列，用表示，其中表示模态类型（l 表示语言，v 表示视觉，a 表示音频），表示序列长度，指每个模态向量的维度。利用获得的，将随机数据缺失应用于，从而形成噪声破坏的多模态输入。

基于主导模态的多模态学习

假设，当主导模态的完整性在噪声水平变化的情况下得到保留时，模型的鲁棒性会提高。在设计的 DMC 模块和重构器的基础上改进了 ALMT，从而实现了基于主导模态的 DMML 模块，用于在随机数据缺失场景下进行情感分析。

模态嵌入。对于多模态输入，采用带有两个 Transformer 编码器层的嵌入编码器来提取和统一特征。每个模态都以随机初始化的低维标记开始。然后，这些标记由 Transformer 编码器层处理，嵌入基本模态信息并生成统一特征，表示为。

自适应超模态学习。在原始的 ALMT 中，每个自适应超模态学习层都包含一个 Transformer 和两个多头注意力（MHA）模块。这些用于在语言模态的指导下学习不同尺度的语言表示以及来自视觉和音频模态的超模态表示。考虑到随机数据丢失可能对语言模态（即主导模态）造成严重干扰，文中设计了主导模态校正（DMC）模块来生成代理主导特征并构造校正后的主导特征。具体来说，学习不同尺度下的校正主导表示的过程可以描述为：

为了学习超模态表示，校正后的主导特征和音频/视觉特征分别用于计算查询和键/值。简单来说，流程如下：

其中表示多头注意力，是超模态特征。请注意，特征是随机初始化向量。

多模态融合和预测。利用获得的和，采用具有 4 层深度分类器的 Transformer 编码器进行多模态融合和情感预测：

主导模态校正

这个模块由两个步骤组成，即使用对抗性学习对主导模态进行完整性检查和代理主导特征生成。

完整性检查。应用一个编码器，它由一个两层深度的 Transformer 编码器和一个用于完整性检查的分类器组成。例如，如果主导模态的缺失率为 0.3，则完整性标签为 0.7。该完整性预测 w 可以通过以下方式获得：

代理主导特征生成。利用随机初始化的特征、视觉特征和音频特征，采用代理主导特征生成器，它由两个 Transformer 编码器层组成。该设置生成代理主导特征，旨在补充和纠正主导模态。校正后的主导特征是通过结合和语言特征计算的，并由预测完整性 w 加权：

重构器

文中实验表明，重建丢失的信息可以显着增强回归指标，因此，开发了一个重建器，表示为，它包含两个 Transformer 层，旨在有效地重建每种模态的缺失信息。重建器的运算方程为：

为了优化重建器的性能，应用 L2 损失函数：

总体学习目标

综上所述，该方法涉及四个学习目标，包括完整性检查损失、用于代理主导特征生成的对抗性学习损失、重建损失和最终情感预测损失。情感预测损失可以描述为：

因此，总损失L可以写为：

实验结果

表1和表2显示了MOSI、MOSEI和SIMS数据集的鲁棒性评估结果。如表 1 所示，LNLN 在大多数指标上都实现了最先进的性能。例如，在MOSI数据集上，与MMIM获得的次优结果相比，LNLN在Acc-7上取得了9.46%的相对改进，证明了LNLN在面对不同噪声影响时的鲁棒性。

如图2所示，展示了几种先进方法在不同缺失率下的性能曲线。结果表明，所提出的 LNLN 在大多数情况下始终优于其他模型，显示出其在不同缺失率下的稳健性。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述