李飞飞ReKep论文解读：大模型直接驱动机器人操作，无需数据集

最新推荐文章于 2025-05-18 20:17:36 发布

AI大模型-大飞

最新推荐文章于 2025-05-18 20:17:36 发布

阅读量860

点赞数 27

文章标签：人工智能科技 LLM 大模型李飞飞 Agent

本文链接：https://blog.csdn.net/m0_63171455/article/details/146439090

版权

前言

近日，Google DeepMind发布了基于 Gemini 2.0 的具身推理模型Gemini Robotics-ER以及动作模型Gemini Robotics。Gemini Robotics-ER 通过增强的具身推理（ER）能力，将语义理解扩展至物理几何（如 3D 结构、物体位姿）和动态场景（如运动轨迹、接触效应），使机器人从“感知环境”升级为“理解物理规律”。例如，它能识别咖啡杯的把手并规划安全抓取路径，甚至动态生成控制代码以适应突发变化，而无需预先的数据训练。在泛化性测试中，Gemini Robotics性能平均比其他VLA模型高出一倍以上。

此番Google DeepMind的思路，其实与李飞飞团队在去年发表的ReKep研究有颇多相通之处。这也是我们做本期解读的原因。

李飞飞（Fei-Fei Li）作为人工智能领域的领军人物之一，现任斯坦福大学计算机科学教授，其团队提出的ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation，是一项在具身智能领域具有突破性的研究成果。该论文于2024年9月首次公开，并在同年12月的CoRL 2024（Conference on Robot Learning）的LEAP研讨会上荣获最佳论文奖。

Why it matters: 该研究提出了一种基于语义关键点时空约束的机器人操作框架——在不需要依赖特定任务数据或环境模型的前提下，实现了多步骤、开放环境下的灵活任务执行。这标志着具身智能在动态环境适应性和任务泛化能力上的重要进展。

FuturePulse将从以下几个关键问题解读ReKep：

ReKep的提出是为了解决什么问题？
ReKep系统具体是如何工作的？
基于ReKep的任务执行效果如何？
ReKep相比VoxPoser主要进行了什么迭代？
ReKep如何应用于端到端具身模型？

论文地址：

ReKep： https://rekep-robot.github.io/

VoxPoser：https://voxposer.github.io/

ReKep的提出，

是为了解决什么问题？

在具身智能领域，通过端到端的学习训练，构建一个通用机器人基础模型，正逐渐成为一种主流范式，典型代表是 PI 的 Π0 模型、Figure 的 Helix 模型，国内的具身智能创业公司也在纷纷发布自己的端到端VLA（语言-视觉-动作模型）模型。

在这个范式下，首要的命题是，使用什么数据和训练方法来训练这个模型。可以说，数据means everything，最终机器人能做什么、是否真的能在开放的现实世界中成为人类的好帮手，很大程度上取决于模型能够获得和处理怎样的数据输入。

目前用于机器人学习主要有三类数据来源：机器人本体在实际环境中采集的真实数据、虚拟仿真模拟环境中生成的合成数据、互联网数据（例如人类作为本体进行操作行为的视频数据）。每类数据都有其优势和局限性。

真实数据：数据质量高，但难以大规模获取，且欠缺面向开放世界的多样性；
合成数据：可批量生成，但永远无法完全模拟开放的真实世界，且始终面临现实与仿真的偏差问题；
互联网数据：海量，但缺乏精确度。

学术界和产业界围绕如何构建大规模的机器人数据集、以及如何更好地利用不同数据类型用于机器人学习，开展了大量工作，也在不断获得突破。但时至今日，数据依然是具身大模型的核心瓶颈。

那么，在上述围绕数据为核心的端到端训练框架以外，是否有其他方法来训练和赋予机器人操作的能力，从而一定程度上缓解机器人训练的数据瓶颈？

ReKep 代表了一种新思路：不依赖任何机器人数据集，直接利用大模型的常识知识和推理能力来指导机器人操作。

机器人的操作涉及与环境中物体的复杂交互，这些交互通常可以在空间和时间域中被表征为“约束条件”。以“向杯子里倒茶”这一任务为例：机器人必须先抓住手柄，而后进行移动，并在移动过程中保持杯子直立，直到将壶嘴与目标容器对齐，然后以正确的角度倾斜杯子来完成倒茶。

ReKep（Relational Keypoint Constraints，关键点关系约束），是一种结构化的任务表征方法，它把机器人的操作任务表征为机器人与环境交互过程中三维关键点之间的约束关系，以此来对机器人行为的进行编码。

关键点：即环境中或对象上的语义重要点，例如“茶壶的把手”或“杯子的中心”
关系约束：定义了这些关键点之间的空间和时间关系，例如“机器人夹爪必须位于杯子中心上方且距离为10厘米”

这些约束不仅编码了任务各个阶段的中间子目标（例如将壶嘴与目标容器对齐），也编码了过渡行为（例如移动过程中保持茶杯直立），这些共同决定了机器人动作相对于环境的空间、时序等组合要求。

这些约束通过Python函数映射为数值成本（cost），其中成本≤0则表示约束满足。机器人通过优化这些成本，来实时优化生成机器人动作，最终完成任务的执行，这一过程类似于数学优化问题。

该方法无需依赖机器人数据集，而是充分利用大视觉语言模型中丰富的常识知识以及对开放世界的推理能力，直接驱动机器人的物理动作。

实验表明，该系统可在单臂移动机器人与双臂固定机器人平台上完成多步骤/多阶段、开放场景、双手协同、动态响应等复杂操作任务（例如倒茶、折叠衣服、包装鞋子等），且无需任务专属数据或环境模型。

ReKep系统具体是如何工作的？

Step 1：提取与任务指令相关的关键点

给定RGB-D视觉观测数据与自由形式的语言指令，利用大型视觉模型（如DINOv2）检测和分割场景中的对象，在场景中的语义相关区域上提取出关键点候选。

关键点被定义为场景表面具有笛卡尔坐标的几何点，其具体位置取决于任务语义与环境（例如手柄抓取点、壶嘴位置）。

本质上，一个ReKep编码了关键点之前的期望空间关系，这些关键点可属于机械臂、物体部件或其他智能体。

Step 2：生成完成任务所需的ReKep约束函数

在获取关键点候选后，系统将它们叠加在原始 RGB 图像上，并用数字标记。随后，叠加有关键点的图像与语言指令被输入到视觉语言模型（如GPT-4o）中，利用GPT-4o生成所需的阶段数量，以及一系列以Python程序形式表达的每个阶段对应的约束条件。

由于操控任务通常涉及多步骤多阶段的时空依赖关系，任务通常被分解为N个阶段，并为每个阶段定义两类约束：

子目标约束集 C(i)sub-goal = {f(i)sub-goal,1(k), ..., f(i)sub-goal,n(k)}，要求阶段i结束时达成期望的关键点关系；
路径约束集 C(i)path = {f(i)path,1(k), ..., f(i)path,m(k)}，要求阶段i内所有状态均满足关键点关系。

以“向杯子里倒茶”任务为例，它包含三个阶段：抓取、对齐与倾倒。阶段1子目标约束将末端执行器拉向茶壶手柄；阶段2子目标约束指定壶嘴需位于杯口正上方，路径约束确保运输过程中茶壶保持直立以防溢出；阶段3子目标约束定义倾倒角度目标。

Step 3：实时求解末端执行器的动作序列

将操控任务建模为含C(i)sub-goal与C(i)path的约束优化问题后，便可求解末端执行器动作在空间中的密集序列。

系统采用分层优化框架，即分阶段地进行优化，仅优化下一个直接子目标及其到达该子目标的对应路径）。这使得系统具备较好的实时性，能够以10Hz的频率实时生成机器人动作，并且支持感知-行动的闭环重规划，允许机器人适应动态干扰（例如，如果杯子被移动，系统会根据最新观察重新生成约束并调整动作）。

基于ReKep的任务执行效果如何？

研究在移动单臂机器人和固定双臂机器人两个机器人平台上进行了测试。

设计了多种任务，涵盖多种特性：

多步骤任务：如“倒茶”（抓取、对齐、倒入）
开放环境：如“回收罐子”、“存放书本”
双臂协调：如“折叠衣物”、“打包鞋子”
反应性行为：如“与人类协作折叠毛毯”或应对外部干扰

任务执行效果：实验中对两种ReKep生成变体进行了评估，Auto代表完全基于基础模型生成ReKep约束，Annot.代表使用人工标注ReKep约束。与基线方法（VoxPoser）相比，ReKep 能够有效处理每个任务的核心挑战。

例如，它可以在多步骤任务中正确地建立时间依赖关系（例如，在倒水之前，壶嘴需要与杯子对齐），利用常识知识（例如，可乐罐应该被回收），并在双臂设置（例如，同时折叠左袖和右袖）和人机协作设置（例如，通过与人类一起对齐四个角来折叠大毯子）中构建协调行为。

它还可以在“存放书籍”任务的狭小空间中生成运动学上具有挑战性的行为，并在“打包鞋子”任务中找到一个可行的解决方案，将两只鞋紧密地放入小体积中。

此外，由于关键点以高频率被跟踪，系统可以对外部干扰做出一定反应，并在阶段内和跨阶段进行重规划。

泛化能力：在“折叠衣物”任务中，测试了 ReKep在8 类不同衣物（不同类型的衣服匹配不同的折叠方法）上的策略生成成功率和执行成功率，体现了其根据物体特性生成多样化操作策略的能力。

相比VoxPoser，

ReKep主要进行了什么迭代？

VoxPoser 是李飞飞团队在 2023 年推出的一项创新研究，为后续的 ReKep 奠定了基础。

它的核心理念也是利用大模型的常识知识，实现机器人的操作控制。VoxPoser 通过大语言模型接收自然语言指令并生成代码，再由这些代码与视觉语言模型交互，映射到一个三维空间中，形成“价值图”，让机器人知道“哪些地方可以碰、哪些地方不能碰”，从而提升机器人在物理环境中的操作能力。

ReKep 则在 VoxPoser 的基础上进一步发展，最大的改进是引入了时间维度，使系统能够处理任务中的时间依赖性和时间逻辑。这使得机器人仅需在任务开始时向大型模型查询一次，后续面对干扰或者环境变化时，可通过优化机制自行调整策略。

以“向杯子里倒茶”为例，如果在倒茶过程中杯子位置发生变化，系统会暂停当前的倒茶动作，重新对准杯子的新位置，然后重新完成倒茶动作。

而VoxPoser因为缺少时间维度的推理能力，面对干扰情况，系统需要重新向大模型查询，重新生成并优化整个任务，这一过程会带来额外的计算和等待时间。因此，ReKep 能够提升机器人对复杂动态环境的适应能力。

ReKep 相比 VoxPoser 的另一个改进是，ReKep 具备对三维旋转的表达能力——当施加足够的共面性（多个关键点位于同一个平面内）与刚性约束（物体在运动中保持形状不变）时，关键点的位置变化能提供足够的信息推导出物体的旋转状态，提供完整的旋转描述（按任务语义需求启用）。

这使得GPT-4o能在3D笛卡尔空间中通过算术运算推理旋转，避免了传统旋转表示（如旋转矩阵、欧拉角、四元数）带来的复杂数值计算（如矩阵乘法或三角函数求解）。

VoxPoser 只能表示位置信息，对三维旋转缺少直接的数学表示。而这会带来较大的局限性：在操作中，机器人不仅需要知道物体在空间中的位置，还需要知道物体的朝向（姿态）。如果系统无法有效表示旋转，机器人只能粗略地定位物体，而无法正确调整自己的抓取角度，导致动作不够精确或完全失败。例如，在“向杯子里倒茶”任务中，需要在移动过程中控制杯子保持直立、不倾斜，VoxPoser则无法很好地处理这类需要精细控制旋转状态的任务。

ReKep 的三维旋转表达能力，使它相比 VoxPoser 能更好地处理涉及物体姿态表示、运动控制以及精确操作控制的场景，更适应复杂机器人操作场景。

ReKep如何应用于

端到端具身模型？

FuturePulse观点：

从实验结果数据看，ReKep在任务完成上的整体表现，距离可实际被应用于解决现实世界任务操作（成功率需接近于100%），尚有很长的路要走。但是，ReKep 并不必“单打独斗”，它与端到端并不是割裂的两种技术路线。相反，两者可融合，互为补充。ReKep尤其适合作为端到端基础模型的预训练的一部分，帮助提升模型面对开放世界的泛化能力。

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。