多模态大语言模型arxiv论文略读(八十二)

在这里插入图片描述

Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning

➡️ 论文标题:Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning
➡️ 论文作者:Zebang Cheng, Zhi-Qi Cheng, Jun-Yan He, Jingdong Sun, Kai Wang, Yuxiang Lin, Zheng Lian, Xiaojiang Peng, Alexander Hauptmann
➡️ 研究机构: 深圳技术大学、卡内基梅隆大学、阿里巴巴集团、新加坡国立大学、中国科学院自动化研究所
➡️ 问题背景:准确的情感感知对于人机交互、教育辅助和心理咨询等应用至关重要。然而,传统的单模态方法往往无法捕捉到现实世界情感表达的复杂性,这些表达本质上是多模态的。此外,现有的多模态大语言模型(MLLMs)在整合音频和识别细微的面部微表情方面面临挑战。
➡️ 研究动机:研究团队认为,缺乏专门的多模态情感指令数据集是限制MLLMs有效性的主要因素。这些模型在处理音频输入和识别细微面部微表情方面的能力不足,导致在现实世界场景中的表现不佳。为了解决这些问题,研究团队构建了MERR数据集,并提出了Emotion-LLaMA模型,旨在提高情感识别和推理的能力。
➡️ 方法简介:研究团队构建了MERR数据集,包含28,618个粗粒度和4,487个细粒度标注样本,涵盖了多种情感类别。Emotion-LLaMA模型通过情感特定编码器整合音频、视觉和文本输入,并通过指令调优(instruction tuning)方法增强情感识别和推理能力。模型通过将多模态特征对齐到共享空间,并使用修改后的LLaMA模型,显著提高了情感识别和推理的准确性。
➡️ 实验设计:研究团队在四个公开数据集上进行了实验,包括MER2023、MER2024、DFEW和EMER。实验设计了不同任务,如情感识别和情感推理,以全面评估Emotion-LLaMA在多模态情感任务中的表现。实验结果表明,Emotion-LLaMA在多个数据集上显著优于其他MLLMs,特别是在Clue Overlap(7.83)和Label Overlap(6.25)等指标上取得了最高分。此外,Emotion-LLaMA在MER2023-SEMI挑战中取得了0.9036的F1分数,在DFEW数据集的零样本评估中也表现优异,UAR为45.59%,WAR为59.37%。

MMNeuron: Discovering Neuron-Level Domain-Specific Interpretation in Multimodal Large Language Model

➡️ 论文标题:MMNeuron: Discovering Neuron-Level Domain-Specific Interpretation in Multimodal Large Language Model
➡️ 论文作者:Jiahao Huo, Yibo Yan, Boren Hu, Yutao Yue, Xuming Hu
➡️ 研究机构: The Hong Kong University of Science and Technology (Guangzhou), The Hong Kong University of Science and Technology, Tongji University
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)通过将视觉特征投影到词嵌入空间,实现了视觉和语言的融合。然而,这些模型的内部机制尚未完全探索,特别是关于如何处理来自不同领域的特征。研究团队发现,MLLMs在处理特定领域的信息时,可能并未充分利用这些信息,这影响了模型在特定任务上的表现。
➡️ 研究动机:为了深入理解MLLMs如何处理不同领域的特征,研究团队识别了MLLMs中的领域特定神经元(Domain-Specific Neurons, DSNs),并分析了这些神经元的分布和激活模式。研究旨在揭示MLLMs在处理多模态特征时的内部机制,为未来模型的改进提供理论支持。
➡️ 方法简介:研究团队提出了一种基于领域激活概率熵(Domain Activation Probability Entropy, DAPE)的方法,用于识别MLLMs中的DSNs。通过分析不同领域数据集上的模型表现,研究团队构建了一个三层框架,描述了MLLMs在处理投影图像特征时的机制。此外,研究团队还使用logit lens技术,解码模型中间层的隐藏状态,以可视化特征转换过程。
➡️ 实验设计:研究在五个不同领域的数据集上进行了实验,包括VQAv2(通用场景)、PMC-VQA(医学领域)、DocVQA(文档领域)、LingoQA(自动驾驶领域)和RS-VQA(遥感领域)。实验设计了不同的评估指标,如准确率和平均归一化Levenshtein相似度(ANLS),以全面评估模型在不同领域的表现。通过对比激活和不激活领域特定神经元时的模型性能,研究团队验证了DSNs对模型表现的影响。

Hallucination Mitigation Prompts Long-term Video Understanding

➡️ 论文标题:Hallucination Mitigation Prompts Long-term Video Understanding
➡️ 论文作者:Yiwei Sun, Zhihang Liu, Chuanbin Liu, Bowei Pu, Zhihan Zhang, Hongtao Xie
➡️ 研究机构: 中国科学技术大学 (University of Science and Technology of China)
➡️ 问题背景:当前的多模态大型语言模型在视频理解任务中取得了显著进展,但在处理未经处理的长视频时能力有限,主要原因是难以支持巨大的内存开销。现有的方法通过聚合帧来平衡内存和信息,但不可避免地引入了严重的幻觉问题,包括错误引用和虚构内容。
➡️ 研究动机:为了缓解这些幻觉问题,研究团队基于现有的多模态大型语言模型(MLLMs)构建了一个全面的幻觉缓解管道。该管道通过使用CLIP Score指导基于问题的帧采样、将问题信息注入图像Q-former的查询中以获取更重要的视觉特征,以及在答案生成阶段利用链式思维和上下文学习技术来显式控制答案的生成,从而有效缓解了幻觉问题。
➡️ 方法简介:研究团队提出了一种系统的方法,通过构建一个全面的幻觉缓解管道,该管道包括CLIP Score指导的帧采样、问题引导的帧特征提取器以及链式思维和上下文学习技术。此外,对于断点模式,研究团队发现图像理解模型比视频理解模型表现更好,因此采用了一种比较机制来整合两种模型的答案。
➡️ 实验设计:在MovieChat数据集上进行了实验,实验设计了不同的组件(如链式思维、CLIP Score指导的帧采样、上下文学习)的变化,以及不同模式(全局模式和断点模式)的评估,以全面评估模型在不同条件下的表现。实验结果表明,该方法在全局模式和断点模式下分别达到了84.2%和62.9%的准确率,显著超越了官方基线模型。

Preserving Knowledge in Large Language Model with Model-Agnostic Self-Decompression

➡️ 论文标题:Preserving Knowledge in Large Language Model with Model-Agnostic Self-Decompression
➡️ 论文作者:Zilun Zhang, Yutao Sun, Tiancheng Zhao, Leigang Sha, Ruochen Xu, Kyusong Lee, Jianwei Yin
➡️ 研究机构: 浙江大学计算机科学与技术学院、浙江大学滨江研究院、Linker Technology Research Co. Ltd
➡️ 问题背景:大型语言模型(LLMs)和多模态大型语言模型(MLLMs)在特定领域的性能可能会下降,尤其是在进行领域特定的监督微调(SFT)时,模型可能会遭受灾难性遗忘,即在学习新知识的同时忘记旧知识。此外,MLLMs在语言基准测试中的表现通常不如其单模态对应模型。
➡️ 研究动机:为了应对LLMs和MLLMs在特定领域训练时的灾难性遗忘问题,研究团队提出了一种新的模型无关的自解压方法——树生成(Tree Generation, TG),该方法通过将LLMs中的知识解压到训练语料库中,以减少遗忘问题。研究旨在通过在SFT过程中加入解压数据,提醒并保持旧知识,从而提高模型的泛化能力。
➡️ 方法简介:研究团队设计了一种名为TG-SFT的方法,用于监督微调MLLMs。TG-SFT通过构建结构化的对话序列,生成多样且准确的对话语料库,以供模型训练。该方法基于树状扩展策略,从一个通用的系统提示开始,逐步生成问题和回答,形成完整的对话路径。
➡️ 实验设计:实验在多个数据集上进行,包括视觉-语言基准测试(如GQA、MMBench等)和纯语言基准测试(如ARC、HellaSwag等)。实验比较了不同方法(如LLaVA Full-Param、LLaVA LoRA、Human ShareGPT、TG-SFT Wide-Tree和TG-SFT Balance-Tree)在SFT过程中的表现,评估了不同树结构配置和对话轮数对模型性能的影响。实验结果表明,TG-SFT方法在减少灾难性遗忘方面表现出色,尤其是在使用知识引导的TG-SFT Balance-Tree方法时,模型在语言基准测试中的表现接近甚至超过了使用人类生成数据的模型。

AIC MLLM: Autonomous Interactive Correction MLLM for Robust Robotic Manipulation

➡️ 论文标题:AIC MLLM: Autonomous Interactive Correction MLLM for Robust Robotic Manipulation
➡️ 论文作者:Chuyan Xiong, Chengyu Shen, Xiaoqi Li, Kaichen Zhou, Jeremy Liu, Ruiping Wang, Hao Dong
➡️ 研究机构: 北京大学计算机学院、中国科学院计算技术研究所
➡️ 问题背景:在现实世界中,机器人系统与物体的稳定交互需要具备反思和纠正失败的能力。尽管多模态大语言模型(MLLMs)在理解、分析和解释失败方面表现出色,但现有的方法主要集中在使用额外的MLLM进行高层次任务规划的纠正,而对低层次接触姿态的纠正利用不足,特别是在处理关节物体时。
➡️ 研究动机:为了填补这一空白,研究团队提出了一种自主交互纠正(AIC)MLLM框架,该框架利用先前的低层次交互经验来纠正关节物体操作的SE(3)姿态预测。研究旨在通过学习失败样本来提高机器人的低层次动作生成能力,从而增强其操作稳定性。
➡️ 方法简介:研究团队设计了视觉和文本提示来指导位置和旋转的纠正,并引入了一个反馈信息提取模块,以根据识别出的失败原因自适应地纠正姿态预测。此外,还实现了一个测试时适应(TTA)策略,以增强模型对当前场景配置的适应性。
➡️ 实验设计:在模拟和真实环境中进行了广泛的实验,以评估所提出方法的有效性。实验包括了不同类型的关节物体,通过测试AIC MLLM在不同条件下的表现,验证了其在纠正失败样本方面的效率。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

胖头鱼爱算法

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值