VLA
文章平均质量分 91
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
2025_NIPS_Training-Free Test-Time Adaptation via Shape and Style Guidance for Vision-Language Model
预训练视觉语言模型的测试时自适应展现出优异的零样本分类能力,而无训练方法在无需任何优化开销的前提下进一步提升了性能。然而,现有无训练测试时自适应方法通常依赖熵准则选择视觉特征和更新视觉缓存,却忽略了形状敏感和风格不敏感等泛化因子。本文提出一种新颖的形状和风格引导(SSG)方法,用于视觉语言模型的无训练测试时自适应,旨在突出形状敏感(SHS)和风格不敏感(STI)因子的作用。具体而言,SSG通过形状和风格破坏操作对原始测试图像进行扰动,并将原始图像与扰动图像的预测差异定义为扰动预测差异(PPD)。原创 2026-04-01 07:30:00 · 40 阅读 · 0 评论 -
2025_NIPS_RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics
空间指代是实体机器人与3D物理世界交互的核心能力。然而,即便借助强大的预训练视觉语言模型(VLM),现有方法仍无法精准理解复杂3D场景,也难以对指令指示的交互位置进行动态推理。为此,我们提出RoboRefer——一种3D感知VLM,其首先通过监督微调(SFT)整合分离式专用深度编码器,实现精准空间理解;进一步通过强化微调(RFT),结合为空间指代任务定制的度量敏感过程奖励函数,提升广义多步空间推理能力。原创 2026-03-31 08:30:00 · 436 阅读 · 0 评论 -
The Trinity of Consistency as a Defining Principle for General World Models
构建能够学习、模拟和推理客观物理定律的世界模型,是追求人工通用智能(AGI)的核心挑战。以Sora为代表的视频生成模型近期取得的进展,展示了数据驱动的缩放定律在逼近物理动力学方面的潜力,而新兴的统一多模态模型(UMM)则为融合感知、语言和推理提供了极具前景的架构范式。尽管取得了这些进步,该领域仍缺乏一个系统性的理论框架来定义通用世界模型的核心必备属性。本文提出,世界模型必须建立在“一致性三位一体”的基础上:作为语义接口的模态一致性、作为几何基础的空间一致性,以及作为因果引擎的时间一致性。原创 2026-03-13 09:30:00 · 36 阅读 · 0 评论 -
2025_NIPS_OptiScene: LLM-driven Indoor Scene Layout Generation via Scaled Human-aligned Data Synthes
自动室内场景布局生成因其在室内设计、虚拟环境构建和具身智能体领域的应用潜力,已受到越来越多的关注。现有方法主要分为两类:一类是利用专有大语言模型(LLM)服务(如GPT API)的提示驱动型方法,另一类是基于扩散模型在布局数据上训练的学习型方法。提示驱动型方法常存在空间不一致和计算成本高的问题,而学习型方法则通常受限于粗粒度关系图和有限的数据集,导致其难以泛化到多样化的房间类型。原创 2026-02-25 09:30:00 · 42 阅读 · 0 评论 -
2025_NIPS_World Models Should Prioritize the Unification of Physical and Social Dynamics
该文章聚焦AI世界模型(World Models)的发展瓶颈与突破方向,核心观点是:当前世界模型在物理动力学(如重力、物体运动)和社会动力学(如人类情感、人际互动)的建模上处于孤立状态,无法捕捉现实世界中二者深度交织的复杂关系,因此物理与社会预测能力的双向统一是世界模型的下一个关键前沿。世界模型通过明确学习环境动力学,为规划、推理和决策奠定基础,其在预测物理动力学和社会行为方面正迅速发展,但这些进展主要局限于相互独立的领域。原创 2026-02-19 12:30:00 · 53 阅读 · 0 评论 -
2025_NIPS_PoE-World: Compositional World Modeling with Products of Programmatic Experts
学习世界的运行机制是构建能够适应复杂环境的人工智能智能体的核心。基于深度学习的传统世界模型需要海量训练数据,且无法从稀疏观测中灵活更新知识。近年来,利用大型语言模型(LLMs)进行程序合成的研究取得了新进展,提供了一种替代方法——将世界模型表示为源代码,支持从少量数据中实现强泛化。迄今为止,程序化结构的世界模型的应用仍局限于自然语言和网格世界领域。本文提出了一种新型程序合成方法,通过将世界模型表示为LLMs合成的程序化专家的指数加权乘积(PoE-World),有效建模复杂的非网格世界领域。原创 2026-01-24 11:30:00 · 59 阅读 · 0 评论 -
URBAN SOCIO-SEMANTIC SEGMENTATION WITH VISION-LANGUAGE REASONING
作为人类活动的核心枢纽,城市地表包含丰富的语义实体。从卫星影像中分割这些多样实体对一系列下游应用至关重要。当前先进的分割模型能够可靠地分割由物理属性定义的实体(如建筑物、水体),但在处理由社会属性定义的类别(如学校、公园)时仍面临挑战。本研究通过视觉-语言模型推理实现社会语义分割。为支撑该任务,我们引入名为SocioSeg的城市社会语义分割数据集——这是一个包含卫星影像、数字地图和社会语义实体像素级标签的新资源,标签采用分层结构组织。原创 2026-01-23 11:30:00 · 47 阅读 · 0 评论 -
Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning
高效 latent 推理框架:首次将文本思维链压缩为紧凑的、可 verbalize 的连续 latent 表示,在不损失推理能力的前提下解决延迟问题;偏好引导蒸馏机制:结合强化学习奖励信号,引导学生模型学习高质量推理模式,同时通过 verbalizer LLM 确保 latent 表示的可解释性;动作对齐的视觉规划蒸馏:通过轨迹级表示对齐,将教师模型的空间推理能力迁移到学生模型,解决纯文本蒸馏缺乏视觉-动作衔接的问题;推理-动作衔接设计。原创 2026-01-24 11:30:00 · 60 阅读 · 0 评论
分享