14篇多模态最新论文汇总,最新的研究成果在这里

【1】 ArtRAG: Retrieval-Augmented Generation with Structured Context for Visual Art Understanding

标题: ArtRAG:具有结构化上下文的检索增强生成,用于视觉艺术理解

链接:https://arxiv.org/abs/2505.06020

作者: Shuai Wang, Ivona Najdenkoska, Hongyi Zhu, Stevan Rudinac, Monika Kackovic, Nachoem Wijnberg, Marcel Worring

摘要:理解视觉艺术需要从多个角度进行推理--文化、历史和风格--而不仅仅是物体识别。虽然最近的多模态大型语言模型(MLLM)在一般图像字幕上表现良好,但它们往往无法捕捉美术所需的细微差别。我们提出了ArtRAG,一种新颖的,无训练的框架,结合结构化的知识与检索增强生成(RAG)的多视角艺术品解释。ArtRAG从特定领域的文本源自动构建艺术背景知识图(ACKG),将艺术家,运动,主题和历史事件等实体组织成丰富的可解释图。在推理时,多粒度结构化检索器选择语义和拓扑相关的子图来指导生成。这使MLLM能够产生基于上下文的,文化上知情的艺术描述。在SemArt和Artpedia数据集上的实验表明,ArtRAG优于几个经过大量训练的基线。人类评估进一步证实,ArtRAG产生了连贯的,有见地的和文化丰富的解释。

【2】 Multi-Modal Molecular Representation Learning via Structure Awareness

标题: 通过结构意识进行多模式表示分子学习

链接:https://arxiv.org/abs/2505.05877

作者: Rong Yin, Ruyue Liu, Xiaoshuai Hao, Xingrui Zhou, Yong Liu, Can Ma, Weiping Wang

备注:Accepted by IEEE Transactions on Image Processing (TIP) 2025

摘要:分子表征的准确提取是药物发现过程中的关键步骤。近年来,分子表征学习方法取得了重大进展,其中基于图像的多模态分子表征方法和2D/3D拓扑结构的分子表征方法日益成为主流。然而,现有的这些多模态方法往往直接融合来自不同模态的信息,忽视了模态间相互作用的潜力,并且未能充分捕获分子之间复杂的高阶关系和不变特征。为了克服这些挑战,我们提出了一个基于结构感知的多模态自监督分子表示预训练框架(MMSA),旨在通过利用分子之间的不变知识来增强分子图表示。该框架由两个主要模块组成:多模态分子表征学习模块和结构感知模块。多模态分子表征学习模块协同处理来自同一分子的不同模态的信息,以克服模态间差异并生成统一的分子嵌入。随后,结构感知模块通过构建超图结构来模拟分子之间的高阶相关性来增强分子表示。该模块还引入了存储典型分子表征的记忆机制,将其与记忆库中的记忆锚对齐,以整合不变知识,从而提高模型泛化能力。大量的实验已经证明了MMSA的有效性,它在MoleculeNet基准测试中达到了最先进的性能,平均ROC-AUC比基线方法提高了1.8%到9.6%。

【3】 Looking Beyond Language Priors: Enhancing Visual Comprehension and Attention in Multimodal Models

标题: 超越语言先验:增强多模式模型中的视觉理解和注意力

链接:https://arxiv.org/abs/2505.05626

作者: Aarti Ghatkesar, Uddeshya Upadhyay, Ganesh Venkatesh

摘要:实现视觉和语言之间的深度对齐仍然是多模态大型语言模型(MLLM)的核心挑战。这些模型通常无法充分利用视觉输入,默认为强语言先验。我们的方法首先提供了如何MLLM内部建立图像区域的视觉理解的见解,然后引入技术来放大这种能力。具体来说,我们探索的技术,旨在加深模型的视觉内容的理解,并确保这些视觉见解积极引导语言生成。我们通过详细的上游分析来量化其预测视觉依赖性令牌的能力,以及在视觉挑战性任务上的10点提升,从而展示了对我们所得模型的卓越多模态理解。

【4】 MM-Skin: Enhancing Dermatology Vision-Language Model with an Image-Text Dataset Derived from Textbooks

标题: MM-Skin:利用教科书中的图像-文本数据集增强皮肤病学视觉-语言模型

链接:https://arxiv.org/abs/2505.06152

作者: Wenqi Zeng, Yuqi Sun, Chenxi Ma, Weimin Tan, Bo Yan

摘要:医学视觉语言模型(VLM)已经显示出在各个医学领域作为临床助手的前景。然而,能够提供专业和详细诊断分析的专业皮肤病学VLM仍然不发达,主要是由于当前皮肤病学多模态数据集中的专业化文本描述较少。为了解决这个问题,我们提出了MM-Skin,这是第一个大规模的多模式皮肤病学数据集,包括3种成像模式,包括临床,皮肤镜和病理以及从专业教科书中收集的近10 k个高质量图像-文本对。此外,我们还生成了超过27 k个不同的、遵循视觉问答(VQA)的样本(是目前最大的皮肤病学VQA数据集的9倍)。利用公共数据集和MM-Skin,我们开发了SkinVL,这是一种皮肤病学专用的VLM,旨在精确和细致入微地解释皮肤疾病。SkinVL在VQA、监督微调(SFT)和zero-shot分类任务上的全面基准评估显示,与一般和医学VLM模型相比,SkinVL在皮肤病方面表现出色。MM-Skin和SkinVL的推出为推动临床皮肤病学VLM助手的发展做出了有意义的贡献。MM-Skin可在https://github.com/ZwQ803/MM-Skin上获得

【5】 Multimodal Integrated Knowledge Transfer to Large Language Models through Preference Optimization with Biomedical Applications

标题: 通过生物医学应用的偏好优化向大型语言模型的多模式集成知识转移

链接:https://arxiv.org/abs/2505.05736

作者: Da Wu, Zhanliang Wang, Quan Nguyen, Zhuoran Xu, Kai Wang

备注:First Draft

摘要:高质量的多模态生物医学数据的稀缺限制了有效地微调预训练的大型语言模型(LLM)用于专门的生物医学任务的能力。为了应对这一挑战,我们引入了MINT(多模态集成知识转移),这是一个框架,通过偏好优化将单峰大型解码器模型与多模态生物医学数据的特定领域决策模式对齐。虽然MINT支持不同的优化技术,但我们主要使用比值比偏好优化(ORPO)框架作为其骨干来实现它。该策略使对齐的LLM能够使用仅文本或仅图像输入执行预测任务,同时保留从多模态数据中学习的知识。MINT利用在高质量多模态数据上训练的上游多模态机器学习(MML)模型,将特定领域的见解转移到下游纯文本或纯图像LLM。我们通过两个关键应用证明了它的有效性:(1)从文本中预测罕见遗传疾病,其中MINT使用多模态编码器模型,根据面部照片和临床笔记进行训练,以生成用于对齐轻量级Llama 3.2-3B-Instruct的偏好数据集。尽管仅依赖于文本输入,但MINT衍生的模型优于使用SFT,RAG或DPO训练的模型,甚至优于Llama 3.1- 405 B-Instruct。(2)使用细胞核图像进行组织类型分类,其中MINT使用视觉语言基础模型作为偏好生成器,包含从文本和组织病理学图像中学习的知识,以对齐下游的仅图像模型。由此产生的MINT衍生模型显著提高了Llama 3.2-Vision-11B-Instruct在组织类型分类方面的性能。总之,MINT提供了一种有效的策略,通过偏好优化将单峰LLM与高质量的多模态专业知识相结合。

【6】 The Moon's Many Faces: A Single Unified Transformer for Multimodal Lunar Reconstruction

标题: 月球的多面:用于多模态月球重建的单一统一Transformer

链接:https://arxiv.org/abs/2505.05644

作者: Tom Sander, Moritz Tenthoff, Kay Wohlfarth, Christian Wöhler

备注:14pages

摘要:多模态学习是跨多个学科的新兴研究课题,但很少应用于行星科学。在这方面的贡献,我们确定反射率参数估计和基于图像的月球图像的三维重建可以制定为一个多模态学习问题。我们提出了一个单一的,统一的Transformer架构训练,学习多个源之间的共享表示,如灰度图像,数字高程模型,表面法线,和EQUIPDO地图。该架构支持从任何输入模态到任何目标模态的灵活转换。从灰度图像中预测DEM和三维地图同时解决了行星表面的三维重建任务,并解开了光度参数和高度信息。我们的研究结果表明,我们的基础模型在这四种模式中学习物理上合理的关系。未来添加更多的输入模式将实现光度标准化和配准等任务。

【7】 Preliminary Explorations with GPT-4o(mni) Native Image Generation

标题: 使用GPT-4 o(mni)原生图像生成进行初步探索

链接:https://arxiv.org/abs/2505.05501

作者: Pu Cao, Feng Zhou, Junyi Ji, Qingye Kong, Zhixiang Lv, Mingjian Zhang, Xuekun Zhao, Siqi Wu, Yinghui Lin, Qing Song, Lu Yang

摘要:最近,GPT-4 o(mni)的视觉生成能力已经被OpenAI解锁。它展示了非常出色的生成能力,具有出色的多模态条件理解和各种任务指令。在本文中,我们的目标是探索GPT-4 o在各种任务中的能力。受先前研究的启发,我们构建了一个任务分类以及一组精心策划的测试样本来进行全面的定性测试。得益于GPT-4 o强大的多模态理解能力,其图像生成过程显示出超越传统图像生成任务的能力。因此,关于模型能力的维度,我们评估了它在六个任务类别中的性能:传统的图像生成任务,判别任务,基于知识的生成,基于常识的生成,空间感知的图像生成和时间感知的图像生成。这些任务不仅评估模型输出的质量和条件对齐,还深入探讨了GPT-4 o对现实世界概念的理解。我们的研究结果表明,GPT-4 o在通用合成任务中表现出色,在文本到图像生成,视觉风格化和低级图像处理方面表现出强大的能力。然而,它在执行精确的空间推理、基于推理的生成和一致的时间预测的能力方面仍然存在重大限制。此外,当面对知识密集型或特定领域的场景时,如科学插图或数学图,模型往往会出现幻觉,事实错误或结构不一致。这些发现表明,虽然GPT-4 o标志着统一多模式发电的重大进步,但要将其可靠地应用于专业或安全关键领域,还有很长的路要走。

哈喽,专注于多模态研究的朋友们:


阿蓝在此诚邀各位同仁参与深蓝学院「多模态」系列直播公开课,讨论多模态各方向的研究进展,交流研究过程中遇到的问题,提出自己的研究想法,「多模态」系列直播期待您的加入~

添加助教获取【10余篇多模态方向推荐阅读论文】!

【8】 Task-Adapter++: Task-specific Adaptation with Order-aware Alignment for Few-shot Action Recognition

标题: Task-Adaptor ++:特定于任务的自适应,具有顺序感知对齐,用于Few-Shot动作识别

链接:https://arxiv.org/abs/2505.06002

作者: Congqi Cao, Peiheng Han, Yueran zhang, Yating Yu, Qinyi Lv, Lingtong Min, Yanning zhang

备注:arXiv admin note: substantial text overlap with arXiv:2408.00249

摘要:大规模的预训练模型在语言和图像任务中取得了显著的成功,导致越来越多的研究探索预训练图像模型,如CLIP,在Few-Shot动作识别(FSAR)领域的应用。然而,目前的方法普遍存在以下几个问题:1)直接微调往往会破坏预训练模型的泛化能力; 2)视觉任务中对特定任务信息的探索不足; 3)在文本建模过程中通常会忽略语义顺序信息; 4)现有的跨模态对齐技术忽略了多模态信息的时间耦合。为了解决这些问题,我们提出了Task-Adapter++,这是一种适用于图像和文本编码器的参数高效的双重自适应方法。具体来说,为了充分利用不同的Few-Shot学习任务之间的变化,我们为图像编码器设计了一个特定于任务的自适应,以便在特征提取过程中可以很好地注意到最具鉴别力的信息。此外,我们利用大型语言模型(LLM)为每个动作类生成详细的顺序子动作描述,并将语义顺序适配器引入文本编码器,以有效地模拟这些子动作之间的顺序关系。最后,我们开发了一个创新的细粒度的跨模态对齐策略,积极映射视觉功能,以驻留在相同的时间阶段的语义描述。大量的实验充分证明了该方法的有效性和优越性,在5个基准测试上取得了一致的最先进的性能。代码在https://github.com/Jaulin-Bage/Task-Adapter-pp上是开源的。

【9】 VR-RAG: Open-vocabulary Species Recognition with RAG-Assisted Large Multi-Modal Models

标题: VR-RAG:使用RAG辅助的大型多模式模型的开放词汇物种识别

链接:https://arxiv.org/abs/2505.05635

作者: Faizan Farooq Khan, Jun Chen, Youssef Mohamed, Chun-Mei Feng, Mohamed Elhoseiny 备注:7 figures

摘要:开放词汇识别仍然是计算机视觉中的一个具有挑战性的问题,因为它需要从一组无界的类别中识别对象。这一点在自然界尤其重要,因为每年都有新的物种被发现。在这项工作中,我们专注于开放词汇的鸟类物种识别,其目标是根据它们的描述对物种进行分类,而不限于一组预定义的分类类别。像CUB-200-2011和Birdsnap这样的传统基准测试是在封闭的词汇表范例中进行评估的,这限制了它们对新物种不断出现的现实世界场景的适用性。我们表明,当前系统的性能评估时,密切配合开放式词汇表的设置下下降了巨大的利润。为了解决这一差距,我们提出了一个可扩展的框架,将通过GPT-4 o提取的11,202种鸟类的维基百科文章中的结构化文本知识集成为简洁、有区别的摘要。我们提出了视觉重新排名检索增强生成(VR-RAG),一种新的检索增强生成框架,使用视觉相似性重新排名的前m名候选人检索的一组多模态视觉语言编码器。这允许识别看不见的分类群。在五个已建立的分类基准的广泛实验表明,我们的方法是非常有效的。通过集成VR-RAG,我们在五个基准测试中将最先进的大型多模态模型QWEN2.5-VL的平均性能提高了15.4%。我们的方法优于传统的基于VLM的方法,后者与看不见的物种作斗争。通过弥合昆虫知识和视觉识别之间的差距,我们的工作推进了开放式词汇识别,为生物多样性监测和生态研究提供了灵活、可扩展的解决方案。

【10】 BrainSegDMlF: A Dynamic Fusion-enhanced SAM for Brain Lesion Segmentation

标题: BrainSegDMlF:一种用于脑损伤分割的动态融合增强型Sam

链接:https://arxiv.org/abs/2505.06133

作者: Hongming Wang, Yifeng Wu, Huimin Huang, Hongtao Wu, Jia-Xuan Jiang, Xiaodong Zhang, Hao Zheng, Xian Wu, Yefeng Zheng, Jinping Xu, Jing Cheng

摘要:脑实质性病变的分割是医学图像分割领域中一个重要而又具有挑战性的课题。脑成像中的实质性脑病变表现出高度的异质性,病变区域与正常脑组织之间的边界模糊。单个切片中的小病变难以识别,使得异常区域的准确和可再现的分割以及其特征描述非常复杂。现有的方法存在以下局限性:1)它们只依赖于单模态信息进行学习,忽略了诊断中常用的多模态信息。这阻碍了从多个视角全面获取脑病变信息的能力,并阻止了多模态数据输入的有效整合和利用,从而限制了对病变的整体理解。2)它们受到可用数据量的限制,导致对小病变的灵敏度低,难以检测到细微的病理变化。3)目前基于SAM的模型依赖于外部提示,无法实现自动分割,在一定程度上影响了诊断效率,针对这些问题,我们开发了一种专门针对脑病变分割的大规模全自动分割模型BrainSegDMLF。该模型具有以下特点:1)动态模态交互融合(DMIF)模块,在编码过程中对多模态数据进行处理和集成,为SAM编码器提供更全面的模态信息。2)逐层上采样解码器,使模型即使在有限的数据下也能提取丰富的低级和高级特征,从而检测出小病变的存在。3)自动分割掩模,允许模型自动生成病变掩模,而无需手动提示。

【11】 Fine-Tuning Video-Text Contrastive Model for Primate Behavior Retrieval from Unlabeled Raw Videos

标题: 从未标记原始视频中检索灵长类动物行为的微调视频-文本对比模型

链接:https://arxiv.org/abs/2505.05681

作者: Giulio Cesare Mastrocinque Santo, Patrícia Izar, Irene Delval, Victor de Napole Gregolin, Nina S. T. Hirata

摘要:非人类灵长类动物在其自然栖息地的视频记录是研究它们在野外行为的常见来源。我们针对卷尾猴的特定领域对预先训练的视频-文本基础模型进行了微调,目的是开发有用的计算模型,以帮助研究人员从视频中检索有用的片段。我们专注于训练模型的挑战性问题,仅基于原始的,未标记的视频片段,使用弱音频描述有时由现场合作者提供。我们利用多模态大型语言模型(MLLM)和视觉语言模型(VLM)的最新进展来解决视频和音频内容的极端噪声性质。具体来说,我们提出了一个双重的方法:代理数据处理管道和微调过程。数据处理管道自动从原始视频中提取干净且语义对齐的视频-文本对,随后通过低秩自适应(LoRA)对预训练的Microsoft X-CLIP模型进行微调。在我们的域数据上,我们获得了16帧模型的$Hits@5$提升$167\%$和8帧模型的$114\%$提升。此外,基于$NDCG@K$结果,我们的模型能够很好地对大多数考虑的行为进行排名,而测试的原始预训练模型根本无法对它们进行排名。该代码将在接受后提供。

【12】 MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills

标题: MonetGPT:解决难题提高了MLLM的图像修饰技能

链接:https://arxiv.org/abs/2505.06176

作者: Niladri Shekhar Dutt, Duygu Ceylan, Niloy J. Mitra

备注:Accepted at SIGGRAPH 2025 [ACM Transactions on Graphics]; Project website: this https URL

摘要:修饰是原始照片后期处理的一项重要任务。由文本或笔画引导的生成式编辑为用户提供了一种新的工具,但可以以不可接受和不可预测的方式轻松改变原始对象的身份。相比之下,虽然传统的程序编辑,如通常由照片编辑工具(例如,Gimp,Lightweight),都是保守的,他们仍然是专业人士的首选。不幸的是,专业质量的修饰涉及许多个人的程序编辑操作,这是具有挑战性的计划,为大多数新手。在本文中,我们问,如果一个多模态大语言模型(MLLM)可以教批评原始照片,建议适当的补救措施,并最终实现它们与一组给定的预创作的程序图像操作。我们证明,MLLM可以首先意识到底层的图像处理操作,通过训练他们来解决专门设计的视觉难题。随后,这样的操作感知MLLM可以计划和建议编辑序列。为了便于训练,给定一组专家编辑的照片,我们通过程序化地操作专家编辑来合成推理数据集,然后将预先训练的LLM基于视觉调整,以合成用于微调的推理。建议的修饰操作,通过构造,用户可以理解,保留对象的细节和分辨率,并且可以可选地被覆盖。我们评估了我们的设置在各种测试的例子,并显示优势,在可解释性和身份保护方面,现有的生成和其他程序的替代品。代码、数据、模型和补充结果可以通过我们的项目网站https://monetgpt.github.io找到。

【13】 Multimodal Sentiment Analysis on CMU-MOSEI Dataset using Transformer-based Models

标题: 基于转换器模型的CMU-MOSEI数据集多模态情感分析

链接:https://arxiv.org/abs/2505.06110

作者: Jugal Gajjar, Kaustik Ranaware

备注:6 pages, 2 figures, 5 tables, and 19 references

摘要:该项目使用CMU-MOSEI数据集进行多模态情感分析,使用基于transformer的模型进行早期融合,以整合文本,音频和视觉模态。我们为每种模态采用基于BERT的编码器,提取在分类之前连接的嵌入。该模型在测试集上获得了97.87%的7类准确率和0.9682的F1分数,证明了早期融合在捕获跨模态交互方面的有效性。训练使用Adam优化(lr= 1 e-4),dropout(0.3)和早期停止,以确保泛化和鲁棒性。结果突出了Transformer架构在建模多模态情感方面的优势,低MAE(0.1060)表明精确的情感强度预测。未来的工作可能会比较融合策略或提高可解释性。这种方法通过有效地结合语言,声学和视觉线索进行情感分析来利用多模态学习。

【14】 TopicVD: A Topic-Based Dataset of Video-Guided Multimodal Machine Translation for Documentaries

标题: TopicVD:基于主题的文献视频引导多模式机器翻译数据集

链接:https://arxiv.org/abs/2505.05714

作者: Jinze Lv, Jian Chen, Zi Long, Xianghua Fu, Yin Chen

备注:NLDB 2025

摘要:大多数现有的多模态机器翻译(MMT)数据集主要由静态图像或短视频片段组成,缺乏跨不同领域和主题的广泛视频数据。因此,它们无法满足现实世界MMT任务的需求,例如文件翻译。在这项研究中,我们开发了TopicVD,一个基于主题的数据集,用于视频支持的多模态机器翻译的纪录片,旨在推进这一领域的研究。本文从纪录片中收集了视频字幕对,并将其分为经济、自然等八个主题,以便于对视频引导的MMT中的领域适应进行研究。此外,我们保留了他们的上下文信息,以支持在视频引导的MMT中利用纪录片的全球背景的研究。为了更好地捕捉文本和视频之间的共享语义,我们提出了一个基于跨模态双向注意模块的MMT模型。在TopicVD数据集上的大量实验表明,视觉信息持续提高了NMT模型在文献翻译中的性能。然而,MMT模型的性能显着下降,在域外的情况下,突出了有效的域适应方法的需要。此外,实验表明,全局上下文可以有效地提高翻译性能。https://github.com/JinzeLv/TopicVD上获得

哈喽,专注于多模态研究的朋友们:


阿蓝在此诚邀各位同仁参与深蓝学院「多模态」系列直播公开课,讨论多模态各方向的研究进展,交流研究过程中遇到的问题,提出自己的研究想法,「多模态」系列直播期待您的加入~

添加助教获取【10余篇多模态方向推荐阅读论文】!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值