Agent相关
- Auto-scaling Continuous Memory for GUI Agent (https://arxiv.org/abs/2510.09038): 该研究提出了一种连续记忆机制,用于增强GUI代理在不熟悉的界面和长时程任务中的泛化能力。该方法利用VLM作为编码器,将GUI轨迹编码为固定长度的连续嵌入,直接插入到主干网络的输入层,降低了上下文成本并保留了细粒度的视觉信息。实验表明,随着记忆大小和检索深度的增加,性能会单调提高。
- Agentic Systems in Radiology: Design, Applications, Evaluation, and Challenges (https://arxiv.org/abs/2510.09404): 本文综述了LLM驱动的智能体系统在放射学中的设计、应用、评估和挑战。放射学领域多模态数据流和复杂工作流程,非常适合使用能够适应上下文并自动化重复性但复杂任务的智能体。文章讨论了如何利用LLM集成信息、遵循指令并在多个信息源之间进行“推理”和规划,从而实现半自动化工作流程到更具适应性的智能体,以管理复杂流程。
- Multimodal Policy Internalization for Conversational Agents (https://arxiv.org/abs/2510.09474): 针对对话代理中策略复杂化和计算成本高的问题,提出了多模态策略内化(MPI)任务,旨在将推理密集的多模态策略内化到模型参数中,从而在推理时不依赖策略提示也能实现更强的策略遵循。文章构建了合成和真实世界的决策和工具使用数据集,并提出了TriMPI三阶段训练框架,实验表明TriMPI在准确性、泛化性和鲁棒性方面均有显著提升。
大模型的行业应用
- Diagnosing Shoulder Disorders Using Multimodal Large Language Models and Consumer-Grade Cameras (https://arxiv.org/abs/2510.09230): 该研究探索了使用多模态大语言模型(MLLMs)和消费级相机进行肩部疾病初步诊断的创新应用。提出了一个混合运动视频诊断框架(HMVDx),将动作理解和疾病诊断任务分别由两个MLLM完成。实验结果表明,HMVDx在诊断肩关节损伤方面的准确率比直接视频诊断提高了79.6%。
- Hallucination Filtering in Radiology Vision-Language Models Using Discrete Semantic Entropy (https://arxiv.org/abs/2510.09256): 该研究提出使用离散语义熵(DSE)来过滤放射学视觉-语言模型(VLM)中容易产生幻觉的问题,从而提高模型的准确性。实验结果表明,通过排除高熵问题(DSE > 0.3),GPT-4o和GPT-4.1在剩余问题上的准确率显著提高。
Benchmark
- BLINK-Twice: You see, but do you observe? A Reasoning Benchmark on Visual Perception (https://arxiv.org/abs/2510.09361): 为了解决现有推理基准主要评估基于语言的推理的问题,提出了BLINK-Twice,这是一个以视觉为中心的推理基准,专注于具有挑战性的感知任务。该基准要求模型仅从视觉内容进行推理,侧重于细粒度的观察和分析推理,集成了七种视觉挑战、自然对抗图像对以及带注释的推理链。实验表明,BLINK-Twice对当前模型提出了重大挑战,重复图像观察可以提高性能。
- CFVBench: A Comprehensive Video Benchmark for Fine-grained Multimodal Retrieval-Augmented Generation (https://arxiv.org/abs/2510.09266): 为了解决现有视频多模态检索增强生成(MRAG)基准在模态覆盖和格式多样性方面的局限性,提出了CFVBench,一个大规模、手动验证的基准,包含599个公开视频和5,360个开放式问答对。CFVBench涵盖了图表报告、新闻广播和软件教程等高密度格式和领域,要求模型检索和推理长时程视频跨度,同时保持细粒度的多模态信息。实验表明,当前模型难以捕捉瞬时但至关重要的细粒度多模态细节。
- MRMR: A Realistic and Expert-Level Multidisciplinary Benchmark for Reasoning-Intensive Multimodal Retrieval (https://arxiv.org/abs/2510.09510): MRMR是一个专家级的多学科多模态检索基准,需要深入的推理。MRMR包含跨越23个领域的1,502个查询,其中正面文档经过人工专家仔细验证。MRMR引入了三个关键进展:挑战跨不同专业领域的检索系统,查询是推理密集型的,查询和文档被构建为图像-文本交错序列。对14个前沿模型进行评估的结果表明,Qwen3-Embedding文本嵌入模型与LLM生成的图像字幕实现了最高的性能,表明多模态检索模型仍有很大的改进空间。
- PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs (https://arxiv.org/abs/2510.09507): 该研究提出了PhysToolBench,第一个专门用于评估MLLM对物理工具理解的基准。该基准被构建为一个视觉问答(VQA)数据集,包含1000多个图像-文本对,评估了模型在工具识别、工具理解和工具创造三个难度级别上的能力。对32个MLLM的综合评估表明,模型在工具理解方面存在显著缺陷。
- CapGeo: A Caption-Assisted Approach to Geometric Reasoning (https://arxiv.org/abs/2510.09302): 该研究提出了一种字幕辅助推理框架CapGeo,通过将视觉内容转换为字幕来弥合视觉和文本模态之间的差距,从而提高多模态大语言模型(MLLM)的几何推理能力。实验结果表明,配备字幕后,Qwen2.5-VL-72B的性能从8.6%提高到59.0%,而Claude-Opus-4的性能从44.8%提高到73.0%。为了系统地评估和识别高质量的几何字幕模型,提出了CapGeo-Bench,一个包含4,641个精选的图-字幕对的数据集。
训练策略
- D-TPT: Dimensional Entropy Maximization for Calibrating Test-Time Prompt Tuning in Vision-Language Models (https://arxiv.org/abs/2510.09473): 该研究针对视觉-语言模型(VLM)在测试时prompt调优中存在的模态差距问题,提出了维度熵最大化方法,通过对文本特征分布进行正则化,减轻对主导维度的依赖,从而提高模型的校准性能。
文生图/文生视频
- Dense2MoE: Restructuring Diffusion Transformer to MoE for Efficient Text-to-Image Generation (https://arxiv.org/abs/2510.09094): 扩散Transformer(DiT)在文本到图像生成方面表现出色,但其庞大的参数尺寸导致了巨大的推理开销。为了解决这个限制,该研究将密集DiT转换为混合专家(MoE)结构,以实现结构化的稀疏化,减少激活参数的数量,同时保留模型容量。通过多步骤的蒸馏管道,将大型扩散transformer转换为MoE结构,减少了60%的激活参数,同时保持了原始性能。
- MMAudioSep: Taming Video-to-Audio Generative Model Towards Video/Text-Queried Sound Separation (https://arxiv.org/abs/2510.09065): 该研究提出了一种用于视频/文本查询的声音分离的生成模型MMAudioSep,该模型基于预训练的视频到音频模型。通过利用预训练的音频生成模型学习的视频/文本和音频之间的关系知识,可以更有效地训练模型。实验结果表明,MMAudioSep优于现有的分离模型,并且在通过微调获得声音分离功能后,模型保留了原始视频到音频生成的能力。
- OSCAR: Orthogonal Stochastic Control for Alignment-Respecting Diversity in Flow Matching (https://arxiv.org/abs/2510.09060): 该研究提出了一种无需训练的推理时控制机制,使基于流的文本到图像模型具有多样性感知能力。该方法通过特征空间目标鼓励轨迹之间的横向扩散,并通过时间调度的随机扰动重新引入不确定性。扰动被投影为与生成流正交,从而提高图像细节或提示保真度的情况下增强了多样性。
其他
- Vision Language Models: A Survey of 26K Papers (https://arxiv.org/abs/2510.09586): 本文对CVPR、ICLR和NeurIPS上2023-2025年间发表的26104篇论文的研究趋势进行了测量。分析量化了三个宏观转变:多模态视觉-语言-LLM工作的急剧增加,生成方法的稳定扩展,以及具有弹性的3D和视频活动。
- Goal-oriented Backdoor Attack against Vision-Language-Action Models via Physical Objects (https://arxiv.org/abs/2510.09269): 这项工作揭示了一种更实际的威胁:攻击者可以通过简单地将物理对象作为触发器注入到训练数据集中来操纵VLA。提出了面向目标的后门攻击(GoBA),其中VLA在没有物理触发器的情况下表现正常,但在存在物理触发器的情况下执行预定义的和面向目标的动作。
- SpaceVista: All-Scale Visual Spatial Reasoning from mm to km (https://arxiv.org/abs/2510.09606): 本文旨在通过解决两个关键挑战来推进跨不同场景的全尺度空间推理:1) 对室内3D扫描和劳动密集型手动注释的严重依赖;2) 缺乏有效的全尺度场景建模,这通常导致过度拟合到各个场景。本文介绍了一个整体解决方案,该解决方案集成了结构化空间推理知识系统、尺度感知建模和渐进式训练范例。
- Spotlight on Token Perception for Multimodal Reinforcement Learning (https://arxiv.org/abs/2510.09285): 本文从token感知的角度对多模态强化学习(RLVR)进行了探索,该方法测量了每个生成的token的视觉依赖性。通过对Chain-of-Thought(CoT)过程的细粒度分析,揭示了两个关键见解:首先,rollout轨迹中的token感知是稀疏分布的,其中只有一小部分token具有用于视觉基础推理的高视觉依赖性;其次,不同的轨迹在它们的整体视觉依赖性中表现出显著的差异。基于这些观察,提出了一种新型策略梯度算法Visually-Perceptive Policy Optimization(VPPO),该算法显式地利用token感知来细化学习信号。
- Towards Safer and Understandable Driver Intention Prediction (https://arxiv.org/abs/2510.09200): 本文介绍了驾驶员意图预测(DIP)中可解释性的任务,即在驾驶员安全发生之前预测机动。为了促进可解释DIP的研究,整理了可解释驾驶行为预测数据集(DAAD-X),这是一个新的多模态、以自我为中心的视频数据集,为驾驶员的决策提供分层、高级文本解释作为因果推理。
编辑精选
- Auto-scaling Continuous Memory for GUI Agent (https://arxiv.org/abs/2510.09038): 该论文提出了一种连续记忆机制,能够显著提升GUI代理的泛化能力和处理长时程任务的能力,具有很强的实用性。
- PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs (https://arxiv.org/abs/2510.09507): 填补了MLLM物理工具理解能力评估的空白,为后续研究提供了重要的基准和方向。
- MRMR: A Realistic and Expert-Level Multidisciplinary Benchmark for Reasoning-Intensive Multimodal Retrieval (https://arxiv.org/abs/2510.09510): 该基准更贴近实际应用场景,对多模态检索模型提出了更高的要求,能够有效推动相关领域的研究进展。
1万+

被折叠的 条评论
为什么被折叠?



