
VLM规划下加约束:SayCan、ReKep等
文章平均质量分 96
直接提示VLM规划的更细
v_JULY_v
七月在线创始人兼CEO,结构之法算法之道blog之博主
展开
-
基于人类视频的模仿学习与VLM推理规划:从DexMV、MimicPlay、SeeDo到人形OKAMI、Harmon(含R3M的详解)
在此文《》的1.1节开头有提到机器人收集训练数据一般有多种方式,比如Dexmv物理本体,有的翻译为embodiment38-Dexmv即embodiment-agnostic keypoint,49考虑到「从人类视频中学习」早已成为机器人的主流训练方法之一,故打算系统阐述以下这个课题,不然很多朋友可能只是理解其字面意思,但到底具体怎么个模仿学习,则不一定知其里,而通过本文系统的阐述,可以让大家更深刻的理解模仿学习背后更深的细节。原创 2024-10-20 22:57:24 · 6364 阅读 · 0 评论 -
VLM驱动机器狗——从UMI on Legs到Helpful DoggyBot:分别把机械臂装到机器狗背上、夹爪装到机器狗嘴里
今年十一7天假期期间,一半的时间都在改本博客内的上一篇文章《从Fast-UMI到Diff-Control:分别改进UMI的硬件及其所用的Diffusion policy(含ControlNet详解)》,改完之后,接下来计划要写的博客包括且不限于。然10.7日晚,又无意中看到了「UMI on Legs和Helpful DoggyBot」这两个工作,前者把UMI机械臂放到机器狗背上(适合我司之前去一个客户机房的场景),后者把夹爪放到机器狗嘴里。原创 2024-10-08 23:24:42 · 4725 阅读 · 0 评论 -
ReKep——李飞飞团队提出的让机器人具备空间智能:基于VLM模型GPT-4o和关系关键点约束(含源码解析)
ReKep 的一个实例是一个函数,它将关键点数组(记作 k)映射到一个无界的成本,其中表示约束已满足函数实现为一个无状态的 Python 函数,包含对关键点进行的 NumPy [123] 操作,这些操作可能是非线性和非凸的本质上,ReKep 的一个实例编码了关键点之间的一种期望的空间关系,这些关键点可能属于机器人手臂、物体部件和其他代理然而,一个操作任务通常涉及多个空间关系,并且可能具有多个时间上相互依赖的阶段,每个阶段都包含不同的空间关系。原创 2024-09-18 23:48:37 · 8373 阅读 · 0 评论 -
让VLM充当机器人大脑——VLM规划下加约束:从SayCan、VoxPoser到ViLA、CoPa、ReKep
Figure 的创始人 Brett Adcock 和 AI 团队的负责人 Corey Lynch 在 X 上解释了此次视频中机器人互动背后的原理此次的突破,由 OpenAI 与 Figure 共同做出。OpenAI 提供负责提供视觉推理和语言理解,而 Figure 的神经网络提供快速、低水平、灵巧的机器人动作机器人所做出的所有行为都是出于已经学习过,内化了的能力,而不是来自远程操作,具体则如下Figure 的机载摄像头以 10hz 的频率拍摄图像。原创 2024-03-17 00:12:26 · 11656 阅读 · 0 评论