李飞飞团队发布ReKep：机器人“空间智能”获突破性进展，整合GPT-4o

最新推荐文章于 2025-05-01 23:33:21 发布

人工智能-研究所

最新推荐文章于 2025-05-01 23:33:21 发布

阅读量1.3k

点赞数 19

分类专栏：人工智能程序人生成长学习文章标签：机器人神经网络人工智能深度学习机器学习视觉计算机视觉

本文链接：https://blog.csdn.net/Java_rich/article/details/142655424

版权

人工智能同时被 3 个专栏收录

96 篇文章

订阅专栏

程序人生

87 篇文章

订阅专栏

成长学习

85 篇文章

订阅专栏

视觉与机器人学习的深度融合。

当两只机器手丝滑地互相合作叠衣服、倒茶、将鞋子打包时，加上最近老上头条的 1X 人形机器人 NEO，你可能会产生一种感觉：我们似乎开始进入机器人时代了。

事实上，这些丝滑动作正是先进机器人技术 + 精妙框架设计 + 多模态大模型的产物。

我们知道，有用的机器人往往需要与环境进行复杂精妙的交互，而环境则可被表示成空间域和时间域上的约束。

举个例子，如果要让机器人倒茶，那么机器人首先需要抓住茶壶手柄并使之保持直立，不泼洒出茶水，然后平稳移动，一直到让壶口与杯口对齐，之后以一定角度倾斜茶壶。这里，约束条件不仅包含中间目标（如对齐壶口与杯口），还包括过渡状态（如保持茶壶直立）；它们共同决定了机器人相对于环境的动作的空间、时间和其它组合要求。

然而，现实世界纷繁复杂，如何构建这些约束是一个极具挑战性的问题。

近日，李飞飞团队在这一研究方向取得了一个突破，提出了关系关键点约束（ReKep/Relational Keypoint Constraints）。简单来说，该方法就是将任务表示成一个关系关键点序列。并且，这套框架还能很好地与 GPT-4o 等多模态大模型很好地整合。从演示视频来看，这种方法的表现相当不错。该团队也已发布相关代码。本文一作为 Wenlong Huang。

论文标题：ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation

项目网站：https://rekep-robot.github.io

不方便下载的我已打包好，还准备了一份研究生及SCI论文攻略包

李飞飞表示，该工作展示了视觉与机器人学习的更深层次融合！虽然论文中没有提及李飞飞在今年 5 年初创立的专注空间智能的 AI 公司 World Labs，但 ReKep 显然在空间智能方面大有潜力。

以下是对原文内容的重点罗列：

机器人操作涉及与环境中物体复杂的交互，这些交互可以表现为空间和时间领域的约束。
以倒茶入杯为例，机器人需要抓握把手、保持杯子直立、对准壶嘴和目标容器，然后以正确角度倾斜杯子进行倒茶。
约束不仅包括中间子目标（如对准壶嘴），还包括过渡行为（如运输过程中保持杯子直立），这些共同决定了机器人行动的空间、时间和组合要求。
为现实世界中的多样化任务有效制定这些约束存在挑战。
使用机器人与物体之间相对姿态表示约束是一种直接且常用的方法，但这种方法不能描述几何细节，需要预先获取物体模型，且不适用于可变形物体。
数据驱动方法可以在视觉空间中直接学习约束，但如何有效收集随着物体和任务数量组合增长的数据尚不清楚。
提出的问题是：如何表示广泛适用、可扩展获取、实时优化的操作约束。
提出了关系关键点约束（ReKep），将约束表示为将一组关键点映射到数值成本的Python函数，每个关键点是场景中与任务相关的、有语义意义的三维点。
每个函数由关键点上的（可能是非线性的）算术运算组成，并编码了它们之间的所需“关系”，关键点可能属于环境中的不同实体，如机器人手臂、物体部分和其他代理。
通过在关键点间强制实施刚性，多个关键点可以集体指定线条、表面和/或三维旋转。
研究了ReKep在顺序操作问题中的应用，其中每个任务涉及具有空间和时间依赖性的多个阶段。
通常，约束是手动定义的，但ReKep具有自动化优势，可以通过预训练的大视觉模型（LVM）和视觉语言模型（VLM）实现。
利用LVM提出场景中细粒度且语义上有意义的关键点，利用VLM将约束编写为Python函数，从RGB-D观察和自由形式的语言指令中指定ReKep。

以下是所提供内容的重点概述：

什么是关系关键点约束（Relational Keypoint Constraints，ReKep）：这部分讨论了ReKep的定义，它是一种用于表示机器人操作任务中关键点之间空间关系的方法。
如何使用ReKep将操作表述为一个带约束的优化问题：这部分介绍了如何将机器人操作过程中的约束条件整合到优化问题中，通过ReKep定义目标关键点关系和路径约束。
我们的算法实例能够实时解决优化问题：此处提到了一种算法实现，它能够实时解决上述定义的优化问题，从而指导机器人的动作。
如何从RGB-D观测和语言指令中自动获取ReKep：这部分解释了如何使用DINOv2算法从观测到的场景中提出关键点候选，并使用GPT-4o生成描述不同任务阶段关键点关系的ReKep约束。