多模态可解释性表现优异,猛卷顶会顶刊!

2025深度学习发论文&模型涨点之——多模态可解释性

多模态可解释性(Multimodal Interpretability)是指在多模态系统中,能够以人类可理解的方式解释系统的输出或决策过程。随着多模态大模型(MLLMs)的快速发展,其复杂性和规模带来了可解释性的挑战,但同时也推动了相关研究的进展。

          • Token 级别:研究视觉词元或视觉文本词元对模型决策的影响。

          • Embedding 级别:评估多模态嵌入(如视觉嵌入、文本嵌入、跨模态嵌入)如何在模型中融合信息。

          • 神经元和网络层:分析个体神经元、神经元组以及不同网络层在决策中的作用。

          • 架构设计:通过引入可解释模块或基于因果推理的方法,增强模型的透明度。

          小编整理了一些多模态可解释性论文】合集,以下放出部分,全部论文PDF版皆可领取。

          需要的同学扫码添加我

          回复“多模态可解释性”即可全部领取

          图片

          论文精选

          论文1:

          Explainable Multimodal Emotion Recognition

          可解释的多模态情感识别

          方法

            • 多模态情感识别框架:提出了一种新的任务——可解释的多模态情感识别(EMER),通过整合视觉、音频和文本信息来识别情感,并为预测结果提供解释。

              数据集构建:基于MER2023数据集,构建了一个新的标注数据集,包含332个样本,涵盖多模态线索(视觉、音频和文本)的情感标注。

              基线模型与评估指标:建立了多模态大语言模型(MLLMs)的基线,并定义了评估指标,包括准确率、召回率和BLEU、METEOR等匹配度量。

              多模态描述生成:利用大型语言模型(LLMs)对多模态线索进行消歧,并生成包含情感相关线索的多模态描述(EMER(Multi))。

              图片

            创新点

                • 多模态情感识别的可解释性:首次提出为情感识别结果提供解释,增强了情感标签的可靠性和准确性。

                  开放词汇情感识别:通过LLMs生成的多模态描述,能够识别更丰富的情感标签,突破了传统情感分类的限制。

                  多模态线索整合:将视觉、音频和文本线索整合到一个统一的框架中,提高了情感识别的准确率。

                  性能提升:在多模态情感识别任务中,EMER(Multi)相比单模态方法(如EMER(Text)、EMER(Audio)和EMER(Video))显著提升了性能,准确率和召回率分别达到80.05%和80.07%。

                  图片

                  论文2:

                  Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering

                  通过思维链学习解释:科学问题回答中的多模态推理

                  方法

                      • 科学问题回答数据集(SCIENCEQA):构建了一个包含21,208个多模态选择题的大型数据集,涵盖自然科学、社会科学和语言科学等多个领域,并提供了详细的讲座和解释。

                        链式推理(Chain of Thought, CoT):设计了语言模型,使其能够生成讲座和解释作为思维链,以模拟人类在回答科学问题时的多步推理过程。

                        基线模型与评估:在SCIENCEQA上建立了多种基线模型,包括视觉问答(VQA)模型和大型语言模型(如UnifiedQA和GPT-3),并使用准确率和自动文本评估指标进行评估。

                        图片

                      创新点

                            • 多模态科学问题数据集:SCIENCEQA是第一个大规模多模态科学问题数据集,包含丰富的领域多样性,并为答案提供了详细的讲座和解释。

                              链式推理提升性能:通过生成解释,CoT显著提升了语言模型在少样本学习和微调设置下的性能。例如,GPT-3在少样本设置下通过CoT提升了1.20%的准确率,UnifiedQA通过CoT提升了3.99%。

                              数据效率提升:CoT帮助语言模型从更少的数据中学习,UnifiedQA在只有40%训练数据的情况下达到了与完整数据相同的性能。

                              性能提升:在SCIENCEQA基准测试中,使用CoT的GPT-3达到了75.17%的准确率,超过了人类表现(88.40%)。

                              图片


                            论文3:

                            SCITUNE: Aligning Large Language Models with Scientific Multimodal Instructions

                            SCITUNE:将大型语言模型与科学多模态指令对齐

                            方法

                            • 科学多模态指令调优框架(SciTune):提出了一个两阶段的调优框架,包括科学概念对齐和科学指令调优,以提高大型语言模型(LLMs)对科学多模态指令的理解能力。

                              多模态指令模板:设计了包含视觉信号(如图表、方程)和文本信号(如标题、OCR和段落提及)的多模态指令模板,用于训练LLMs。

                              模型架构:基于LLaMA语言解码器和CLIP视觉编码器构建了多模态适配器,通过线性投影层将视觉编码器的输出转换为语言解码器的输入。

                              实验验证:在ScienceQA基准测试和多种科学图像理解任务上验证了SciTune模型的性能。

                              图片

                            创新点

                                  • 科学多模态指令调优:首次提出将LLMs与科学多模态指令对齐,提高了模型在科学任务中的性能。

                                    多模态指令模板:通过引入科学图表、OCR和段落提及等多模态信号,丰富了指令调优的数据类型。

                                    性能提升:在ScienceQA基准测试中,LLaMA-SciTune(13B)模型的准确率达到了90.03%,超过了人类表现(88.40%)。

                                    少样本学习能力:LLaMA-SciTune在少样本情况下表现出色,对于训练中仅出现10次的讲座,模型的准确率迅速恢复到较高水平。

                                    图片


                                  论文4:

                                  MusicLIME: Explainable Multimodal Music Understanding

                                  MusicLIME:可解释的多模态音乐理解

                                  方法

                                    • 多模态音乐模型:结合音频和歌词两种模态,使用基于Transformer的模型(ROBERTA和Audio Spectrogram Transformer)构建多模态音乐理解模型。

                                      MUSICLIME解释方法:提出了一种模型不可知的特征重要性解释方法,通过分析音频和歌词特征的交互作用,提供模型决策的全面视图。

                                      全局解释聚合:将局部解释聚合为全局解释,通过全局平均重要性和同质性加权重要性方法,提供模型行为的整体视图。

                                      数据集构建:构建了两个多模态音乐数据集,包括Music4All和基于AudioSet的子集,用于情感和流派分类任务。

                                      图片

                                    创新点

                                        • 多模态解释方法:首次提出针对音乐领域的多模态解释方法,能够同时分析音频和歌词特征的交互作用。

                                          全局解释聚合:通过聚合局部解释,提供了模型在不同类别上的全局行为视图,帮助用户更好地理解模型决策。

                                          性能提升:多模态模型在音乐情感和流派分类任务中显著优于单模态模型,情感分类准确率提升至48.53%,流派分类准确率提升至57.34%。

                                          数据集贡献:构建了两个高质量的多模态音乐数据集,为音乐信息检索领域的研究提供了新的资源。

                                          图片

                                        小编整理了多模态可解释性文代码合集

                                        需要的同学扫码添加我

                                        回复“ 多模态可解释性”即可全部领取

                                        图片

                                        评论
                                        添加红包

                                        请填写红包祝福语或标题

                                        红包个数最小为10个

                                        红包金额最低5元

                                        当前余额3.43前往充值 >
                                        需支付:10.00
                                        成就一亿技术人!
                                        领取后你会自动成为博主和红包主的粉丝 规则
                                        hope_wisdom
                                        发出的红包
                                        实付
                                        使用余额支付
                                        点击重新获取
                                        扫码支付
                                        钱包余额 0

                                        抵扣说明:

                                        1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
                                        2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

                                        余额充值