多模态大模型研究每日简报【2025-10-14】

训练数据相关

  • CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images (https://arxiv.org/abs/2510.11718): 该论文提出了CodePlot-CoT,一种通过代码驱动图像进行数学视觉推理的范例。为了训练模型,作者构建了Math-VR,一个大规模双语数据集,包含17.8万个数学问题样本,并开发了一种先进的图像到代码转换器,专门用于解析复杂的数学图形为代码。实验表明,该模型在新的基准测试上比基线模型提高了21%。
  • InfiniHuman: Infinite 3D Human Creation with Precise Control (https://arxiv.org/abs/2510.11650): 提出了InfiniHuman,一个协同提炼现有基础模型以低成本生成无限且带有丰富注释的3D人体数据的框架。InfiniHumanData包含11.1万个身份,每个身份都带有多种粒度的文本描述、多视角RGB图像、详细的服装图像和SMPL人体形状参数。
  • Situat3DChange: Situated 3D Change Understanding Dataset for Multimodal Large Language Model (https://arxiv.org/abs/2510.11509): 该论文提出了Situat3DChange数据集,用于支持情境化的3D变化理解任务。该数据集包含12.1万个问答对,3.6万个变化描述和1.7万个重排指令,利用了1.1万个人类对环境变化的观察,并集成了自我中心和利他主义的视角。
  • mmWalk: Towards Multi-modal Multi-view Walking Assistance (https://arxiv.org/abs/2510.11520): 该论文构建了一个模拟多模态数据集mmWalk,用于户外安全导航。数据集包含120个手动控制的行走轨迹,6.2万个同步帧,超过55.9万个全景图像,涵盖RGB、深度和语义模态。

Agent相关

  • Demystifying Reinforcement Learning in Agentic Reasoning (https://arxiv.org/abs/2510.11701): 该论文深入研究了强化学习在Agent推理中的作用,并从数据、算法和推理模式三个关键角度揭示了其设计原则和实践方法。研究强调,使用真实的端到端工具使用轨迹可以获得更强大的SFT初始化,探索友好的技术对于Agent强化学习至关重要,并且深思熟虑的策略优于频繁的工具调用。
  • ManiAgent: An Agentic Framework for General Robotic Manipulation (https://arxiv.org/abs/2510.11660): 提出了ManiAgent,一个用于通用操作任务的Agent架构,实现从任务描述和环境输入到机器人操作的端到端输出。在该框架中,多个Agent参与Agent间通信,以执行环境感知、子任务分解和动作生成。
  • ReLook: Vision-Grounded RL with a Multimodal LLM Critic for Agentic Web Coding (https://arxiv.org/abs/2510.11498): 提出了ReLook,一个基于视觉的强化学习框架,它利用多模态LLM作为工具,进行生成-诊断-改进的循环。Agent使用MLLM作为视觉评论员(使用屏幕截图对代码进行评分)和视觉反馈的来源。
  • Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning (https://arxiv.org/abs/2510.11027): 提出Vlaser,一个具有协同具身推理能力的视觉-语言-动作模型,旨在整合高级推理和低级控制,用于具身Agent。Vlaser在多个具身推理基准测试中实现了最先进的性能。

大模型的行业应用

  • GlobalizeEd: A Multimodal Translation System that Preserves Speaker Identity in Academic Lectures (https://arxiv.org/abs/2510.11596): 提出了一种新颖的以人为中心的AI框架,用于跨语言教育,展示了多模态翻译系统如何在语言保真度、文化适应性和用户控制之间取得平衡,以创造更具包容性的全球学习体验。
  • Multimodal Disease Progression Modeling via Spatiotemporal Disentanglement and Multiscale Alignment (https://arxiv.org/abs/2510.11112): 提出了DiPro,通过区域感知解耦和多尺度对齐来解决这些挑战。首先,解耦连续CXR序列中的静态(解剖结构)和动态(病理进展)特征,优先考虑与疾病相关的变化。其次,通过局部(成对间隔级别)和全局(全序列)同步,将这些静态和动态CXR特征与异步EHR数据分层对齐,以建模连贯的进展路径。
  • Decoupled Multimodal Fusion for User Interest Modeling in Click-Through Rate Prediction (https://arxiv.org/abs/2510.11066): 提出了解耦多模态融合(DMF),引入了一种模态丰富的建模策略,以实现ID协作表示和多模态表示之间的细粒度交互,从而进行用户兴趣建模。

Benchmark

  • IVEBench: Modern Benchmark Suite for Instruction-Guided Video Editing Assessment (https://arxiv.org/abs/2510.11647): 推出了IVEBench,一个专门为指令引导的视频编辑评估而设计的现代基准测试套件,包含600个高质量源视频,覆盖7个语义维度和8个编辑任务类别。
  • ExpVid: A Benchmark for Experiment Video Understanding & Reasoning (https://arxiv.org/abs/2510.11606): 推出了ExpVid,这是一个旨在系统评估MLLM在科学实验视频上的基准测试,涵盖工具、材料和动作的细粒度感知、步骤顺序和完整性的程序理解,以及连接完整实验与其已发表结论的科学推理。
  • ODI-Bench: Can MLLMs Understand Immersive Omnidirectional Environments? (https://arxiv.org/abs/2510.11549): 提出了ODI-Bench,一个专门为全向图像理解而设计的综合基准测试。ODI-Bench包含2000个高质量全向图像和4000多个手动注释的问答对,涵盖一般级别和空间级别的全向图像理解。
  • VCB Bench: An Evaluation Benchmark for Audio-Grounded Large Language Model Conversational Agents (https://arxiv.org/abs/2510.11098):提出了语音聊天机器人基准测试(VCB Bench),这是一个完全建立在真实人类语音上的高质量中文基准测试。
  • LSVOS 2025 Challenge Report: Recent Advances in Complex Video Object Segmentation (https://arxiv.org/abs/2510.11063): 本报告概述了与 ICCV 2025 联合举办的第七届大规模视频对象分割 (LSVOS) 挑战赛。2025 年版新增了一个名为 Complex VOS (MOSEv2) 的赛道。
  • GIR-Bench: Versatile Benchmark for Generating Images with Reasoning (https://arxiv.org/abs/2510.11026): 提出了GIR-Bench,这是一个综合基准测试,用于评估统一模型在三个互补视角上的性能。

文生图/文生视频

  • EvoCAD: Evolutionary CAD Code Generation with Vision Language Models (https://arxiv.org/abs/2510.11631): 提出了一种通过视觉语言模型和进化优化,生成计算机辅助设计(CAD)对象的方法EvoCAD。该方法采样多个CAD对象,然后使用基于视觉语言和推理语言模型的进化方法对其进行优化。
  • InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models (https://arxiv.org/abs/2510.11341): 提出了InternSVG系列,一个集成的数据-基准-模型套件,用于SVG理解、编辑和生成。核心是SAgoge,这是用于SVG任务的最大、最全面的多模态数据集,涵盖静态图形和动态动画。
  • Diffusion-Link: Diffusion Probabilistic Model for Bridging the Audio-Text Modality Gap (https://arxiv.org/abs/2510.11330): 提出了一种基于扩散的模态桥接模块Diffusion-Link,该模块将音频嵌入生成性地映射到文本嵌入分布中。该模块在冻结的多模态编码器的输出嵌入处进行训练,并实现为具有三个残差MLP块的轻量级网络。
  • Template-Based Text-to-Image Alignment for Language Accessibility: A Study on Visualizing Text Simplifications (https://arxiv.org/abs/2510.11314): 提出了一个结构化的视觉语言模型(VLM)提示框架,用于从简化的文本生成可访问的图像。设计了五个提示模板,每个模板都遵循不同的空间排列,同时遵守可访问性约束。
  • Demystifying Numerosity in Diffusion Models – Limitations and Remedies (https://arxiv.org/abs/2510.11117): 该论文研究了扩散模型中文本提示指定的对象计数准确性问题,发现模型倾向于依赖噪声初始化,并提出通过注入计数感知的布局信息来控制数量。

其他

  • Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation (https://arxiv.org/abs/2510.11689): 提出了Phys2Real,一个结合了视觉语言模型(VLM)推断的物理参数估计与通过不确定性感知融合进行的交互式在线自适应的real-to-sim-to-real RL管道。
  • Audio-Maestro: Enhancing Large Audio-Language Models with Tool-Augmented Reasoning (https://arxiv.org/abs/2510.11454): 提出了Audio-Maestro,一个工具增强的音频推理框架,使音频语言模型能够自主调用外部工具,并将带有时间戳的输出集成到推理过程中。
  • Reasoning as Representation: Rethinking Visual Reinforcement Learning in Image Quality Assessment (https://arxiv.org/abs/2510.11369): 通过实验验证,MLLM通过RL训练,利用其推理能力将冗余的视觉表示转换为紧凑的、跨域对齐的文本表示。基于此,提出了一种新的算法RALI,它采用对比学习直接将图像与RL学习到的通用文本表示对齐。
  • CoPRS: Learning Positional Prior from Chain-of-Thought for Reasoning Segmentation (https://arxiv.org/abs/2510.11173): 提出了CoPRS,一个基于多模态链式思考(MCoT)的位置感知模型,通过一个可微和可解释的位置先验(以热图的形式实例化)将语言推理桥接到分割。
  • video-SALMONN S: Streaming Audio-Visual LLMs Beyond Length Limits via Memory (https://arxiv.org/abs/2510.11129): 提出video-SALMONN S,一种流式音视频LLM,据我们所知,它是第一个在固定内存预算下以 1 FPS 和 360p 分辨率处理 3 小时视频的模型。
  • Connecting Giants: Synergistic Knowledge Transfer of Large Multimodal Models for Few-Shot Learning (https://arxiv.org/abs/2510.11115): 提出了一个新颖的框架SynTrans,它有效地从大型多模态模型中转移多样化和互补的知识,以增强现成的少样本学习器。
  • Evaluating Reasoning Faithfulness in Medical Vision-Language Models using Multimodal Perturbations (https://arxiv.org/abs/2510.11196): 提出了一个临床基础框架,用于胸部X光视觉问答(VQA),该框架通过跨三个轴的受控文本和图像修改来探测CoT的忠实度:临床保真度、因果归因和置信度校准。
  • CoDefend: Cross-Modal Collaborative Defense via Diffusion Purification and Prompt Optimization (https://arxiv.org/abs/2510.11096): 提出了一种基于监督扩散的去噪框架,该框架利用配对的对抗性干净图像数据集,通过定向的、特定于任务的指导来微调扩散模型。
  • GeoVLMath: Enhancing Geometry Reasoning in Vision-Language Models via Cross-Modal Reward for Auxiliary Line Creation (https://arxiv.org/abs/2510.11020): 提出了一个强化学习框架,通过增强图文对齐来增强几何推理。
  • FOSSIL: Harnessing Feedback on Suboptimal Samples for Data-Efficient Generalisation with Imitation Learning for Embodied Vision-and-Language Tasks (https://arxiv.org/abs/2510.11307): 该论文探讨了模仿学习中如何利用次优样本的反馈来提高具身视觉语言任务的数据效率和泛化能力。 通过将语言反馈嵌入作为Transformer策略的输入,并结合辅助自监督学习目标,使得模型能够将次优行为转化为学习机会。
  • COCO-Tree: Compositional Hierarchical Concept Trees for Enhanced Reasoning in Vision Language Models (https://arxiv.org/abs/2510.11012): 提出了COCO-Tree,一种新方法,它使用从LLM中学习到的精心设计的神经符号概念树来增强VLM的输出,以改善VLM的语言推理。COCO-Tree的波束搜索启发式推理过程提高了组合性性能,并提供了VLM预测背后的理由。

编辑精选

  1. Demystifying Reinforcement Learning in Agentic Reasoning (https://arxiv.org/abs/2510.11701): 该论文深入分析了RL在Agent推理中的作用,并提供了实用的设计原则和优化建议,有助于研究人员更好地利用RL来提升Agent的能力。
  2. CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images (https://arxiv.org/abs/2510.11718): 通过结合代码生成和视觉推理,为解决需要视觉辅助的数学问题开辟了新的方向。同时,构建的大规模数据集Math-VR也为该领域的研究提供了宝贵的资源。
  3. ExpVid: A Benchmark for Experiment Video Understanding & Reasoning (https://arxiv.org/abs/2510.11606): 该基准测试旨在评估MLLM在理解和推理科学实验视频方面的能力,填补了现有基准测试的空白,并为开发更智能的科学助手奠定了基础。
  4. AndesVL Technical Report: An Efficient Mobile-side Multimodal Large Language Model (https://arxiv.org/abs/2510.11496): 介绍了一套移动端MLLM,参数量为0.6B到4B,基于Qwen3的LLM和各种视觉编码器。对于在移动端部署多模态大模型具有重要的参考价值。
  5. video-SALMONN S: Streaming Audio-Visual LLMs Beyond Length Limits via Memory (https://arxiv.org/abs/2510.11129): 提出一种流式音视频LLM,可在固定内存预算下以 1 FPS 和 360p 分辨率处理 3 小时视频的模型,对于长视频任务具有参考意义。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值