具身思想链协助提升空间推理能力!SpatialCoT:基于坐标对齐和思想链的具身任务规划

图片

作者:Yuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yaochen Hu, Lingfeng Zhang, Yingxue Zhang, Shuang Wu, Tongtong Cao, Guowei Huang, Helong Huang, Guangjian Tian, Weichao Qiu, Xingyue Quan, Jianye Hao, and Yuzheng Zhuang

  • 单位:华为诺亚方舟实验室

  • 标题:SpatialCoT: Advancing Spatial Reasoning through Coordinate Alignment and Chain-of-Thought for Embodied Task Planning

  • 原文链接:https://arxiv.org/pdf/2501.10074

  • 项目主页:https://spatialcot.github.io/

主要贡献

  • 强调了视觉语言模型固有的语言推理能力,并通过将其与坐标对齐相结合,显著提高了模型在复杂环境中的表现,增强了模型的空间推理能力。

  • 提出了SpatialCoT,包括两个阶段:空间坐标双向对齐和空间定位思维链,能够有效解决具身任务中的复杂问题。

  • 引入了自动化的数据收集流程,用于生成高质量的理由数据,以减少模型微调的数据获取成本,显著提高了数据收集的效率和质量。

  • 实验结果表明,SpatialCoT在导航和操作等具有挑战性的任务中表现出色,超越了之前的SOTA方法。

图片

研究背景

研究问题

现有的方法在处理复杂具身任务时主要依赖于语言输出,未能充分利用视觉语言模型(VLMs)的思维和推理能力。

论文主要解决的问题是增强VLMs在具身任务规划中的空间推理能力。

研究难点

该问题的研究难点包括:

  • 现有方法在处理复杂环境中的精细动作决策时表现不佳;

  • 直接将语言指令转换为点动作空间的做法忽略了VLMs的语言推理能力;

  • 如何在复杂环境中进行多步推理和精细动作生成。

相关工作

  • 空间推理

    • 空间推理是视觉语言模型(VLMs)的关键能力之一,已被纳入多个视觉问答(VQA)基准测试中。

    • 大多数VLMs主要在仅包含2D图像和文本的数据集上进行训练,这些数据集缺乏足够的空间信息,从而限制了它们的空间推理能力。

    • 为了增强VLMs的空间推理能力,一些研究工作如SpatialVLM和SpatialRGPT通过收集与空间相关的问题-答案数据并对其进行微调来实现这一目标。

    • 近期工作如RoboPoint和RoboSpatial通过引入基于点的动作空间来生成更细粒度的动作,例如根据语言指令预测空间可用性(spatial affordance prediction)。

  • 具身思维链

    • 思维链(Chain-of-Thought, CoT)及其扩展已成为大型语言模型(LLMs)和视觉语言模型(VLMs)增强问题解决能力的关键技术。

    • CoT通过引导模型通过一系列逻辑步骤来分解问题,从而实现更系统、更准确的推理。

    • 这种技术已被用于解决复杂的具身任务,例如Inner-Monologue和CaP模型,这些模型通过环境反馈创建“内心独白”或模拟模型的思考过程来帮助规划。

    • 现有研究主要关注语言基础(即粗粒度)的规划,论文认为这种思维过程也可以用于细粒度的空间推理。

研究方法

图片

空间坐标双向对齐

该阶段的目标是使视觉语言模型能够理解和生成坐标。通过对视觉-语言数据和坐标之间的显式对齐,模型可以更好地理解和生成基于坐标的输入和输出。

论文引入了双向对齐框架来强化这一过程。具体来说,模型需要处理两种类型的数据:

  • 坐标理解(Coordinates Understanding)

    • 给定一个图像和一个包含坐标的文本指令,模型应输出关于指令中描述坐标的相应信息。例如,识别图像中特定坐标位置的对象。

    • 公式表示为:。

  • 坐标生成(Coordinates Generation)

    • 给定一个图像和一个不包含坐标的纯文本指令,模型应生成一个或多个坐标来指出指令中描述的位置或区域。

    • 公式表示为:。

为了实现更全面的对齐,论文引入了多种类型的数据,这些数据可以分为四类:

  • 对象理解(Object Understanding)

    • 匹配自然语言描述与图像中的具体视觉内容,即视觉定位。

    • 目标是根据给定的文本描述识别和定位图像中的对象。

  • 可用性预测(Affordance Prediction)

    • 识别和预测对象或环境允许的可能动作。

    • 例如,确定机器人可以无碰撞地导航的区域,或理解如何抓取或操作某些对象。

  • 空间关系(Spatial Relationship)

    • 理解基于环境布局的对象之间的关系。

  • 空间兼容性(Spatial Compatibility)

    • 增强模型理解和预测对象之间兼容性的能力。

空间定位思维链

该阶段的目标是利用VLMs的自然语言处理能力,通过生成理由(rationale)来指导空间推理任务。

通过这种方式,模型能够在复杂的任务中进行更细致的推理,并将其转化为基于坐标的动作。

  • 理由生成:模型首先生成一个理由,即对任务的思考过程。在这个过程中,模型利用其空间和常识推理能力来提供完成任务所需的指导。

  • 动作生成:基于生成的合理理由,模型生成适当的坐标动作。通过在前一阶段中对齐语言和坐标,理由(用语言表达)可以有效地转化为坐标,而无需大量的微调数据。

图片

为了高效地收集高质量的推理-动作数据对,设计了自动化的数据生成流程:

  • 初始动作获取:首先,从模拟器中以规则化的方式获取真实动作,确保动作的优化性。

  • 图像标注:将真实动作标注在输入图像上,可以是轨迹或子目标点,具体取决于任务。

  • 理由生成:使用强大的视觉语言模型根据动作标注的图像和任务指令生成理由。为了避免信息泄露,引入了一个额外的约束提示,确保生成的理由不包含真实动作的信息。

实验设计

任务类型

论文关注两类主要的具身任务:导航和操作。

  • 导航任务

    • 对象目标导航:不同于以往研究中将导航任务视为区域定位问题(即模型只需生成当前视图中的位置),采用更具挑战性的对象目标导航任务。在这种任务中,智能体必须找到当前视野之外的目标对象。模型被要求在每个观察中生成最佳子目标点,以便尽快定位目标对象。

    • 复杂性因素:导航任务的复杂性考虑了状态(如遮挡)、目标(如目标数量和空间约束)、动作(如动作格式和所需技能的数量)以及环境转换(如动态不确定性)等因素。

  • 操作任务

    • 桌面重排:论文使用桌面重排任务作为操作任务的评估标准。这是一个比RoboPoint中的Where2Place任务更具挑战性的扩展。给定一个用语言指令描述的目标布局,模型需要逐步移动物体,通过生成每个物体的起始和结束位置,直到达到期望的布局。

    • 复杂性因素:操作任务的复杂性考虑了物理概念(如碰撞)和人类常识(如何时停止)的理解,以及长视域规划能力的需求。

评估指标

  • 导航任务:使用距离增益(Distance Gain)和成功率(Success Rate)作为评估指标。

  • 操作任务:使用碰撞率(Collision Rate)和成功率(Success Rate)作为评估指标。

结果与分析

图片

  • 问题1:两阶段训练过程是否有效增强VLM的空间推理能力?

    图片

    • 通过将SpatialCoT与基线模型在导航和操作任务上进行比较,验证了两阶段训练过程的效果。

    • 在导航任务中,使用距离增益(DG)和成功率(SR)作为指标。结果显示,GPT-4o ICL和LLama3.2V 11B Zero-shot的表现较差,而RoboPoint的表现稍好。直接动作调优的基线方法提高了DG到2.28,结合空间坐标双向对齐后提高到3.23,引入链式推理后提高到2.83,两者结合提高到3.33,显示出显著提升。

    • 在操作任务中,碰撞率(CR)和成功率(SR)是评估指标。直接动作调优显著降低了碰撞率到21.3%,成功率提高到75.8%。SpatialCoT进一步提高了这些指标,碰撞率为15.6%,成功率为82.6%。

图片

图片

  • 问题2:哪种类型的具身规划任务从SpatialCoT的改进中获益最多?

图片

图片

  • 通过将任务按难度级别分类,分析结果表明,操作任务中大多数失败来自于非唯一对象和高数量对象的情况。SpatialCoT在这些任务中表现出显著改进,成功率分别提高了8.68%和20.00%。

  • 在导航任务中,SpatialCoT在所有难度级别上都表现出色,尤其是在最具有挑战性的级别(目标较少且距离较远)上,成功率提高了8.66%。

  • 问题3:VLM的基本能力与其下游具身规划任务的性能之间是否存在正相关?

图片

  • 评估结果表明,SpatialCoT在所有基本能力类别中均优于其他模型。

  • 通过分析每个基本能力类别与下游性能之间的相关性,发现对象理解和空间关系之间存在明显的正相关关系,表明基本能力与下游任务性能之间存在正相关。

  • 问题4:链式推理如何提高VLM的空间推理能力?

图片

  • 实验结果显示,链式推理过程显著增强了模型利用空间和上下文信息的能力,如房间布局和常识知识,以得出正确答案。

  • 通过案例研究展示,SpatialCoT模型能够更好地考虑典型位置和当前布局,从而产生更准确的结果,而基线模型则生成了混乱的结果。

总结

论文提出了SpatialCoT,通过空间坐标双向对齐和空间定位思维链两个阶段的训练,显著增强了VLMs在具身任务规划中的空间推理能力。

实验结果表明,SpatialCoT在导航和操作任务中均优于SOTA方法,特别是在处理复杂环境和多步推理任务时表现出色。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值