ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation

最新推荐文章于 2025-04-30 16:06:04 发布

Ming_Chens

最新推荐文章于 2025-04-30 16:06:04 发布

阅读量564

点赞数 5

分类专栏：具身智能文章文章标签：深度学习人工智能算法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/s_m_c/article/details/144374012

版权

具身智能文章专栏收录该内容

43 篇文章

订阅专栏

发表时间：CORL 2024 （Best paper）

论文链接：https://readpaper.com/pdf-annotate/note?pdfId=2476642985732261376&noteId=2480092969164874752

作者单位：Stanford University（Li Fei-Fei）

Motivation：将机器人操作任务表示为关联机器人和环境的约束，是编码所需机器人行为的一种有前途的方法。然而，目前尚不清楚如何制定约束，使它们 1) 适用于不同的任务，2) 无需手动标记，以及 3) 由现成的求解器可实时生成机器人动作。

解决方法：具体来说，ReKep 表示为 Python 函数，将环境中的一组 3D 关键点映射到数值成本。我们证明了通过将操作任务表示为一系列关系关键点约束，我们可以使用分层优化过程来解决机器人动作（由 SE(3) 中的末端执行器姿势序列表示），并以实时频率感知-动作循环。

在机器人学中，SE(3) 常用于描述机器人的末端执行器（如机械臂的末端）的运动。末端执行器的姿势序列可以由一系列 SE(3) 变换矩阵表示，这些变换矩阵描述了末端执行器在不同时间点的位置和方向。（即SE3是末端位姿）

我们的贡献总结如下：

1）我们将操作任务制定为具有关系关键点约束的分层优化问题；

2）我们设计了一个管道，使用大型视觉模型和视觉语言模型自动指定关键点和约束；

3）我们在两个真实机器人平台上展示了系统实现，该平台将语言指令和 RGB-D 观察作为输入，并为各种操作任务生成多阶段、野外、双手动和反应行为，所有这些都没有特定于任务的数据或环境模型。

实现方式：结构如下：

输入图像是RGB-D，Dinov2 用于提出场景中细粒度有意义区域的关键点候选对象。将覆盖关键点和指令的图像输入GPT-4o，生成一系列ReKep约束作为python程序，指定任务不同阶段的关键点之间的期望关系(C(i)子目标)，以及对过渡行为的任何要求(Cipath)。最后，约束优化求解器用于在 SE(3) 中获得密集的末端执行器动作序列，受生成的约束。

实验：各种各样真实场景的任务（包括单臂和双臂，包括具有常识知识的野外规范、具有时空依赖性的多阶段任务、与几何意识的双手动协调以及与人类和干扰下的反应性）。

结论：展示了 ReKep 的独特优势，因为它可以由大型视觉模型和视觉语言模型自动合成。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Ming_Chens 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。