2024深度学习发论文&模型涨点之——多模态情感分析
情感分析最初主要关注文本或语音中的情感信息,但这种方法忽略了图像、视频等其他模态的信息。为了更全面地理解人类情感,多模态情感分析技术应运而生,它通过融合多种模态信息来获取更深层次的情感信息。
多模态情感分析面临的挑战包括如何有效捕获特定模态中的相关信息,以及如何充分利用多模态之间的互补信息。传统的单模态特征提取方法在处理长时序数据时无法获得全局上下文信息,且在模型多模态交互时通常忽略不同模态之间的相关性。
我整理了一些多模态情感分析【论文+代码】合集,需要的同学公人人人号【AI创新工场】自取。
论文精选
论文1:
M-SENA: An Integrated Platform for Multimodal Sentiment Analysis
M-SENA:一个用于多模态情感分析的集成平台
方法
模块化视频情感分析框架:包括数据管理、特征提取、模型训练和结果分析模块。
特征提取工具集成:整合Librosa、OpenSmile、OpenFace、MediaPipe等工具,提供Python API和图形界面。
统一的MSA流程:保证不同模态特征组合和融合模型之间的公平比较。
模型评估和分析工具:提供中间结果可视化、即时实例测试和泛化能力测试。
创新点
高度定制的特征提取工具包:使研究人员能够熟悉模态特征的组成,并弥合了使用固定模态特征设计MSA模型与构建实际视频情感分析系统之间的差距。
统一MSA流程:保证了不同模态特征组合和融合模型之间的公平比较,为未来MSA研究提供了可靠的基准。
全面模型评估和分析工具:通过中间结果可视化、即时实例测试和泛化能力测试,提供了模型性能在实际场景中的反映,模型在CMU-MOSI数据集上超越人类水平性能,达到了88.7%的二元准确率和88.6%的F1分数。
论文2:
[ICLR] Neuro-Inspired Information-Theoretic Hierarchical Perception for Multimodal Learning
受神经科学启发的信息论分层感知在多模态学习中的应用
方法
信息瓶颈原则:利用信息瓶颈原则构建紧凑且信息丰富的潜在状态。
层次化感知模型:指定主要模态,并将其视为信息路径中的检测器,以提取信息流。
优化问题:通过最小化和最大化互信息来平衡潜在状态和输入模态状态之间的信息。
创新点
神经科学启发的多模态数据处理:提出了一种新颖的机制,将主要模态作为单一输入,同时利用信息瓶颈原则将其与其他模态信息相链接,提供了一个独特的多模态数据融合视角。
ITHP模型设计:在最新的神经网络架构上设计了ITHP模型,提高了其与现有多模态学习解决方案的兼容性。
性能超越人类水平:ITHP-DeBERTa1框架在多模态情感分析任务中超越了人类水平的基准,在所有评估指标上均表现出色,达到了88.7%的二元准确率和88.6%的F1分数。
论文3:
Sentiment Word Aware Multimodal Refinement for Multimodal Sentiment Analysis with ASR Errors
面向带有ASR错误的多模态情感分析的情感词感知多模态精炼
方法
情感词位置检测:使用情感词位置检测模块获取文本中情感词的最可能位置。
多模态情感词精炼:利用多模态情感词精炼模块动态优化情感词嵌入。
多模态特征融合:将优化后的情感词嵌入作为文本输入,用于多模态特征融合模块以预测情感标签。
创新点
情感词感知多模态精炼模型(SWRM):提出了一种新模型,能够通过利用多模态情感线索动态优化ASR模型中的错误情感词,从而提高模型的鲁棒性。
性能提升:在三个真实世界数据集上,SWRM模型超越了当前最先进的模型,性能提升具体数据表现为在MOSI-SpeechBrain数据集上准确率提升了1.91%,在MOSI-IBM数据集上准确率提升了4.76%,在MOSI-iFlytek数据集上准确率提升了2.91%。
论文4:
Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma Distributions
基于正态逆伽马分布混合的可信多模态回归
方法
多模态数据融合:通过引入正态-逆伽马分布混合(MoNIG)框架,有效地建模不确定性,以适应不同模态的集成。
动态不确定性感知:模型能够动态感知每种模态的不确定性,并对被破坏的模态具有鲁棒性。
明确表示不确定性:提出的MoNIG明确表示了模态特定/全局的认知和偶然不确定性。
创新点
可信多模态回归算法:提出了一种新的算法,该算法在全概率框架下有效地建模不确定性,以适应不同模态的集成,并产生可信的回归结果。
性能提升:在多个多模态回归任务中,如超导临界温度预测、CT切片相对位置预测和多模态情感分析,所提出的方法在各种任务上均显示出优越的性能,例如在超导临界温度预测任务上的均方根误差(RMSE)降低了9.74%。
鲁棒性和可靠性:通过动态感知模态特定的噪声/腐败并估计不确定性,显著提高了模型的鲁棒性和可靠性。