大模型机器人系列(具身智能/人形机器人)
文章平均质量分 95
国内外典型的大模型机器人的原理与实践,比如斯坦福机器人Mobile Aloha、UMI、DexCap、HumaPlus、Open-TeleVision的原理、复现、二次开发
v_JULY_v
七月在线创始人兼CEO,结构之法算法之道blog之博主
展开
-
SRT——基于模仿学习的手术机器人:来自约翰霍普金斯大学和斯坦福ALOHA团队
7.17,我司七月九周年司庆之际,我机器人方向的技术合伙人姚博士发我一篇文章,这篇文章提道:“约翰霍普金斯大学、斯坦福大学合作的手术机器人 Transformer(Surgical Robot Transformer ,SRT),通过端到端模仿学习实现手术任务自动化。在时间落地时,这个研究基于达芬奇机器人上,实现了自动化:打结、针头操作、软组织操作”姚博士当时评论道:他们的策略就是我july博客内介绍过的ACT和diffusion policy,说明只要数据集足够,很多功能都能实现。原创 2024-07-28 13:16:24 · 2480 阅读 · 1 评论 -
UC San Diego的三大机器人:AnyTeleop、Open-TeleVision、Bunny-VisionPro——从RGB相机到VR远程控制机器人
这篇论文的链接,我当时快速看了一遍,还是有价值的一个工作(其应该有受humanplus工作的其他),一直想做下解读来着,无奈过去一周一直在弄mamba2的解读,所以没来得及弄。码器捕捉图像和本体感觉标记的关系,Transformer解码器输出特定块大小的动作序列。手腕的姿态流式传输到服务器。服务器将人类姿态重新定向到机器人,并将关节位置目标。如下图所示,便是TeleVision的远程操作数据收集和学习设置。7.3日,我司大模型机器人(具身智能)线下营群里的一学员发了《左:我们的远程操作系统。原创 2024-07-12 23:11:20 · 4877 阅读 · 3 评论 -
人体姿态估计WHAM与手势估计HaMeR——人形机器人背后的关键技术之一
根据arXiv的记录,此篇论文的提交记录为[Submitted on 12 Dec 2023 (v1), last revised 18 Apr 2024 (this version, v2)]如下图所示,WHAM的输入是由可能具有未知运动的相机捕获的原始视频数据,接下来的目标是预测对应的SMPL模型参数序列,以及在世界坐标系中表达的根方向和平移,具体做法是。原创 2024-06-22 17:39:48 · 2380 阅读 · 1 评论 -
斯坦福人形机器人HumanPlus的代码解读与复现关键:从HST到HIT、HardWare
本文一开始是属于此文的第四部分,但为避免原文篇幅过长,故把该部分抽取出来独立成文过程中解读斯坦福人形机器人humanplus的代码时,还是充满乐趣的,比如又遇到了熟悉的ppo,想到也算是可谓三者合一、步步为赢了大模型时代,技术更迭速度超过以往任何,而个人认为机器人(具身智能)将是未来几年最大的趋势,包括我司机器人线下营曾一天连报5人(开营后,将邀请一波人加入我司机器人开发队伍),愿与有缘人共同开发机器人。原创 2024-06-19 10:40:58 · 2923 阅读 · 1 评论 -
HumanPlus——斯坦福ALOHA团队开源的人形机器人:融合影子学习技术、RL、模仿学习
今天只是一个平常的日子,不过看到了两篇文章一篇是《半年冒出近百家新公司,「具身智能」也有春天》我看完之后转发到朋友圈,并评论道:让机器人翻一万个后空翻,不如让机器人打好一个螺钉,毕竟在目前阶段 炫酷没有意义,所以我们近期全力为工厂去赋能,解决一个个工业场景期待我司与更多工厂合作,从前期的验证、评估开始另外一篇文章便是之前斯坦福Moblie aloha团队竟然开源推出了他们的人形机器人,虽然我司下半年暂不涉足人形机器人(更多还是解决工厂实际业务场景 怎么把活干好、干漂亮则怎么来,是否人形不重要)原创 2024-06-16 12:25:12 · 6643 阅读 · 8 评论 -
LeRobot——Hugging Face打造的机器人领域的Transformer架构
比如,在这个数据可视化的例子中,它展示了LeRobot是如何在Return(一个SDK和查看器,用于可视化与多模态数据流交互)上运行的,数据集来自Aloha项目(用于异构架构运行时自适应和安全深度学习的软件框架,主要目标是促进深度学习算法在异构低能耗计算平台上的实现,为最佳算法选择、资源分配和部署提供自动化。Cadene 发布了一些由Github上LeRobot库的代码提供的机器人功能的示例,它们都是在真实数据集上训练的。上述两个数据集都是在机器人公司Trossen Robotics的机械臂上收集的。原创 2024-06-15 00:47:28 · 2170 阅读 · 0 评论 -
DexCap——斯坦福李飞飞团队泡茶机器人:更好数据收集系统的原理解析、源码剖析
2023年7月,我司组建大模型项目开发团队,从一开始的论文审稿,演变成目前的两大产品线论文方面,除了论文审稿之外,目前正在逐一开发论文翻译、论文对话、论文idea提炼、论文修订/润色/语法纠错、论文检索机器人方面,我们1月份开始攻机器人、Q1组建队伍、5月份成功复现UMI和DexCap后,本月(即6月)总算要开始为工厂赋能了(目前已经谈好三个工厂的合作意向)原创 2024-06-03 12:28:31 · 5280 阅读 · 8 评论 -
Google视觉机器人超级汇总:从RT、RT-2到AutoRT/SARA-RT/RT-Trajectory、RT-H
随着对视觉语言机器人研究的深入,发现Google的工作很值得深挖,比如RT-2想到很多工作都是站在Google的肩上做产品和应用,Google真是科技进步的核心推动力,做了大量大模型的基础设施,服故有了本文,单独汇总Google在机器人领域的重大结果、进展。原创 2024-04-05 14:20:18 · 5556 阅读 · 2 评论 -
视觉语言机器人的大爆发:从RT2、VoxPoser、OK-Robot到Figure 01、清华CoPa
Figure 的创始人 Brett Adcock 和 AI 团队的负责人 Corey Lynch 在 X 上解释了此次视频中机器人互动背后的原理此次的突破,由 OpenAI 与 Figure 共同做出。OpenAI 提供负责提供视觉推理和语言理解,而 Figure 的神经网络提供快速、低水平、灵巧的机器人动作机器人所做出的所有行为都是出于已经学习过,内化了的能力,而不是来自远程操作,具体则如下Figure 的机载摄像头以 10hz 的频率拍摄图像。原创 2024-03-17 00:12:26 · 4835 阅读 · 3 评论 -
带RL的机器人:从类似预测下一个token的伯克利Digit到CMU 18万机器人
本工作为语言交互的机器人操作策略提供了一个新颖的基于现有开源 VLMs 的框架,使用简单微调就能实现出色的效果。RoboFlamingo 为机器人技术研究者提供了一个强大的开源框架,能够更容易地发挥开源 VLMs 的潜能。工作中丰富的实验结果或许可以为机器人技术的实际应用提供宝贵的经验和数据,有助于未来的研究和技术发展参考文献:第二部分// 待更。原创 2024-01-28 00:00:55 · 5369 阅读 · 1 评论 -
逐行解读ACT实现:斯坦福Mobile Aloha之动作分块算法ACT的代码剖析、训练部署
本文最早是属于《斯坦福Mobile ALOHA背后的关键技术:动作分块ACT算法的原理解析》的第二、第三部分,涉及到动作分块ACT的代码剖析与部署训练,但因为想把ACT的代码逐行剖析的更细致些,加之为避免上一篇文章太过于长,故把动作分块ACT的代码剖析与部署实践这块独立出来成本文。原创 2024-01-13 11:06:53 · 10180 阅读 · 17 评论 -
UMI——斯坦福刷盘机器人:从手持夹持器到动作预测Diffusion Policy(含代码解读)
如下图所示a)具有不同类型动作表示的显式策略(b)隐式策略学习以动作和观察为条件的能量函数,并对最小化能量景观的动作进行优化(c)扩散策略通过学习的梯度场将噪声细化为动作。这种表述提供了稳定的训练,允许学习到的策略准确地建模为多模态动作分布,并容纳高维动作序列进一步,所谓扩散策略,是指将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法扩散策略学习动作-分布评分函数的梯度即该策略不是直接输出一个动作,而是以视觉观察为条件,对K次去噪迭代推断“动作-得分梯度”(原创 2024-01-10 23:59:28 · 8896 阅读 · 9 评论 -
ACT的原理解析:斯坦福炒虾机器人Moblie Aloha的动作分块算法ACT
根据上一篇文章《大模型机器人发展史:从VoxPoser、RT2到斯坦福Mobile ALOHA、Google机器人》可知,斯坦福Mobile ALOHA在其发布的论文中提到相当于Mobile ALOHA涉及到了这三大关键技术:ACT、Diffusion Policy、VINN,故本文分三个部分一一阐述。原创 2024-01-08 15:52:50 · 14276 阅读 · 3 评论 -
以Mobile ALOHA为代表的模仿学习的爆发:从Dobb·E、Gello到斯坦福ALOHA、UMI、DexCap、伯克利FMB
且一年前,因为对ChatGPT背后技术原理巨大的「好奇心」,加之极高的「分享热情」、以及想写一篇关于其原理最全面 最深入 最细致文章的「决心」,彻底改变了过去一年的轨迹博客证明了技术研究能力,课程证明了教学教研能力,项目证明了带队开发能力说干就干。原创 2024-01-07 12:02:12 · 8403 阅读 · 9 评论 -
程序员面试、算法研究、机器学习、大模型/ChatGPT/AIGC、论文审稿、具身智能、RAG等11大系列集锦
程序员面试、算法研究、编程艺术、红黑树、机器学习5大经典原创系列集锦与总结作者:July--结构之法算法之道blog之博主。时间:2010年10月-2018年5月,一直在不断更新中..出处:http://blog.csdn.net/v_JULY_v。说明:本博客中部分文章经过不断修改、优化,已集结出版成书《编程之法:面试和算法心得》。前言 开博4年有余,...原创 2020-01-05 20:42:56 · 748947 阅读 · 501 评论