- 博客(143)
- 收藏
- 关注
原创 如何使用meta quest3 遥操so101以及针对其他机械臂的分析
目前已经能够用VR遥操so101,虽然还没有调试的很完美,但是已经能够实现遥操功能了,现在来看看如何集成到自研的机械臂上,机械臂的结构和现有的控制代码都是陌生的,分析一下在需要用到什么东西,是怎么样的一个过程。我会按照遥操so101的逻辑需要什么。
2026-03-06 17:04:17
484
原创 小白都能看懂的openpi-so101部署
尝试lerobot官方0.3.3版本的未果,bug较多,而且就算最后能够成功,效果也不尽人意(社区普遍反映),所以来尝试看一下怎么部署。本博客研究pi0和pi05的微调,so101实机部署流程和代码。2025.11.20 发现lerobot官方提供了lerobot0.4.0 和 lerobot 0.4.1,对pi0和pi0.5都做了支持,应该能顺利部署。
2025-11-27 10:08:11
988
4
原创 用GR00T官方仓库在so101上部署GR00T N1.5
选用之前在box2bowl上微调好的模型,看看能不能成功;失败这就很奇怪了,明明我在之前运行的好好的,怎么参数还能出问题。然后怎么部署呢?卡住了。发现官方有脚本:getting_started/examples/eval_gr00t_so100.py发现当前环境中没有lerobot包,与是:(别学我,这是错的)发现他覆盖安装了很多环境,这些环境会导致serve的服务打不起来。
2025-09-29 09:53:45
978
原创 微调VLA需要的数据数量,质量,构成分析
1-2:GR-3技术报告,GR-3用的是联合训练微调,使用了机器人轨迹和VL数据,效果比 pi0综合高了10%4:Gemini robotics技术报告,打包饭盒一般超过2min,很长程的任务,平均3500条的话也得116个小时。它在持续超过 2 分钟的长流程饭盒打包任务中取得了100% 的成功率(毕竟是技术报告)。100条(1hour)成功率就能超过70%成功率。5. 末端为灵巧手,非抓取扩展也用了1029次人类示范6-7:微调GR00T,基本300条才能到50%左右。
2025-09-03 22:06:29
930
原创 用开源phospho-app训练VLA并部署VLA
我个人用下来的体验非常不错,封装了很多lerobot本身的功能作为可视化接口,上手简单,而且这个app经常更新。
2025-08-27 10:24:05
1506
原创 Lerobot-SO101-安装/数据收集/训练policy
一个有用的功能是重放功能,它允许你重放任何已录制的回合,或者来自任何数据集的回合。接下来的步骤是训练您的神经网络。通过稳定的抓取表现后,您可以开始在数据采集时引入更多变化,例如额外的抓取位置、不同的抓取技术和改变相机位置。重要的是,这个策略将自动适应你机器人(例如笔记本电脑和手机)的电机状态、动作和相机的数量,这些信息已保存在你的数据集中。这是可选的,但如果你使用它,确保先登录,使用命令。一旦你收集到足够的轨迹数据,你将训练一个神经网络来模仿这些轨迹,并部署训练好的模型,使你的机器人能够自主执行任务。
2025-07-28 15:27:34
2336
2
原创 DreamZero(14B) -- Nvidia -- 世界动作模型 -- 2026.2.17
近年来的机器人基础模型被称为 Vision-Language Action models(VLAs),它们在预训练 Vision-Language Models(VLMs)的基础上扩展,使其能够预测运动动作(Bjorck et al., 2025;最先进的视觉-语言-动作(Vision-Language-Action, VLA)模型在语义泛化方面表现出色,尽管 VLAs 能够泛化到多样的语言指令,尤其是在操控不同物体方面表现良好(Brohan et al., 2023),但它们对新环境的泛化能力。
2026-05-07 11:54:49
347
原创 π0.7-5B:Language to Context + 逐指令指导 + 组合泛化 -- 2026.4.16
基础模型遵循这样一个原则:通用能力会从大规模且多样化的数据集训练中涌现出来。例如,大语言模型不仅能够回忆事实和语义知识,还能够以新的方式组合这些知识,从而解决那些需要非常规关联的问题,按照用户指定的格式(如 JSON)输出,并进行链式推理。这种组合式泛化可以说是通用能力的基石,但在具身智能领域,它一直难以真正实现。尽管诸如视觉-语言-动作模型(VLA)这样的机器人基础模型在规模和能力上已经取得了显著进展,但它们对新任务的泛化能力,以及以新方式重组已有技能的能力,到目前为止仍然有限。
2026-04-18 16:00:29
425
原创 GR00T N1.6-一个用于通用人形机器人的先进开源基座模型--2025.12.15
这是面向的 GR00T N1.5 foundation 模型的。通过若干架构、数据与建模方面的改进,发现 N1.6 在仿真操控基准测试上,以及在真实的双臂 YAM、AGIBot Genie-1 和 Unitree G1 机器人上的表现都优于 N1.5(下文有详细说明)。预计 N1.6 的用户在完成训练后应能观察到比 N1.5 更好的性能表现。
2026-03-16 15:42:40
397
原创 VLANeXt: VLA终极配方,12个维度从零构建高性能VLA-- 2026.2.20 -- 开源
随着大型 foundation models 的兴起,视觉—语言—动作模型(VLA)应运而生,它们利用强大的视觉与语言理解能力来进行通用的策略学习,利用大型视觉—语言骨干网络将视觉观测和语言指令直接映射为机器人动作。通过继承基础模型所具备的丰富视觉理解与语言对齐能力,VLA 为实现通用的、以语言为条件的机器人策略提供了一条可扩展的路径(Ma 等,2024;Ravichandar 等,2020;Xiao 等,2025c)。
2026-03-15 17:39:33
454
原创 研究 telegrip - SO100 Robot Arm Teleoperation System
最初是在关注XLerobot工作时,发现他们有通过VR遥操实体机器人的代码,他们声称修改了telegrip相关代码,所以我现在来研究一下telegrip,看看有什么异同,哪些模块是必要的,在迁移到自研机械臂上需要什么。
2026-03-06 17:01:08
268
原创 TWIST 2 -- 人形数据收集系统 -- 开源 -- Amazon FAR
大规模数据推动了机器人学的突破,从语言模型到用于双臂操控的视觉—语言—动作(vision-language-action)模型。在双臂操控领域,诸如 π0 [6] 和 π0.5 [7] 的模型展示了前所未有的能力,这直接得益于健壮且可扩展的数据采集基础设施[8]–[10]。然而,这场数据驱动的革命尚未真正惠及类人机器人——在类人领域缺乏同等有效的数据采集框架,持续制约向人类级别的多能操控与行走进展。类人机器人领域还缺乏同样有效的数据采集框架。现有的类人远程操控系统要么采用解耦控制。
2026-03-04 09:51:13
512
原创 详细研究 Meta quest3 遥操 Xlerobot 的原理和过程(含源码剖析与so101单臂部署过程)
近期打算使用Meta quest3遥操团队自研机械臂收集数据,由于之前没有接触过这种遥操方式,所以想初步的SO101机械臂上做实验,社区中可以参考的相关工作并不多,Xlerobot算是一个,也是一个,而且Xlerobot在社区中非常火热。我参考他们官方的repo和repo中提到的网页文档进行相关研究。官方Github文档网站后续我应该也会对telegrip进行研究。官方的SO101 IK逆解分析XLeVR使用WebSocket服务器从VR头显和控制器流式传输实时数据,并通过HTTPS提供网页UI进行监控。
2026-03-02 11:35:39
1042
原创 具身智能大模型年度技术总结
最近参与了CSDN官方的活动:博客之星2025年度总评选。借此机会总结一下本人从2025年5月到2025年12月底期间学习具身智能大模型的历程,总结一下这半年多相关领域的技术工具以及CSDN平台的使用心得等等。
2025-12-28 15:19:59
906
原创 VLA中人类数据迁移到机器人后的涌现 -- physical intelligence -- 2025.12.16
视觉-语言-动作(VLA)模型能够实现广泛的开放世界泛化,但需要大规模且多样化的数据集。一个吸引人的想法是:其中一部分数据是否可以来自人类视频——这些视频覆盖多样的真实场景且易于获取。人类知识为在机器人中灌输物理智能提供了基础。这可以以多种形式体现:从通过视觉-语言模型用人类生成的文本与图像为机器人策略提供初始(bootstrapping),到通过机器人远程操作(teleoperation)模仿人类生成的动作。尽管这些技术能间接把人类经验灌入模型,但直接从人类经验中学习。
2025-12-26 09:41:35
898
原创 π*0.6: 从实践中学习 -- 2025.11.17 -- Physical Intelligence (π) -- 未开源
pi0 和 pi0.5 作为轰动具身智能领域的VLA引世人瞩目,2025.11.17 Physical Intelligence (π)发布了pi*0.6,一经发出,就在社区中引起了广泛关注,VLA+RL 的研究方向也越来越火热,故来拜读一下。注意π0.6∗π_{0.6}^*π0.6∗和pi0.6不能等价。论文页项目页。
2025-11-29 21:50:24
2135
原创 dexbotic -- 技术报告-- 2025.10.20 -- 开源VLA工具箱
最近,随着 Vision-Language-Action(VLA)模型的发展,在具身智能(embodied intelligence)领域取得了显著进展。然而,该领域的研究分散在不同机构间,各自使用不同的深度学习框架和模型架构。这种多样性给用户在比较不同 policy(策略)时带来挑战:他们需要配置多个实验环境和不同的数据格式,使得 VLA 开发流程变得繁琐。另外,确保每个被比较的 policy 都被充分优化也很困难,这会导致不公平的对比。
2025-11-27 10:09:22
944
原创 VLA-0 -- Nvidia --2025.10.15 -- 开源
在大规模语言模型(LLMs)在文本处理方面取得成功、以及视觉-语言模型(VLMs)在同时处理视觉与文本输入方面表现良好之后,下一步是探索视觉-语言-动作模型(VLAs),即不仅理解视觉和文本信息,而且还能为机器人 agent 预测动作的系统。视觉-语言-动作模型(VLAs)在实现通用型机器人操控方面具有巨大的潜力。然而,构建这类模型的最佳方法仍是一个悬而未决的问题。目前的方法通常会增加复杂性,例如通过添加 action tokens(动作 token)来修改现有视觉-语言模型(VLM)的词汇,或。
2025-11-13 09:30:12
715
2
原创 Gemini Robotics 1.5 -- Gemini Robotics Team -- 技术报告 --- 2025.9.25
虽然是技术报告,但是谷歌的工作还是值得一看的。技术报告页今年早些时候,在将Gemini 的多模态理解能力带入物理世界方面取得了重大进展,起点是 Gemini Robotics 这一系列模型。今天,又向推进智能且真正通用的机器人迈出了一步。Gemini Robotics 1.5 —— 谷歌最强的视觉-语言-动作(VLA)模型:把视觉信息和指令转化为机器人执行任务的运动指令。该模型在行动前会先“思考”并展示其思路流程,从而帮助机器人以更透明的方式评估并完成复杂任务。
2025-10-31 10:02:26
1417
原创 Robotic Manipulation VLA 综述
机器人操纵作为机器人学与具身人工智能的重要前沿,要求精确的运动控制以及在动态环境中对视觉与语义线索的整合性理解。机器人操控在许多领域具有广泛应用价值,包括先进制造、智能物流、精密医疗和多功能家务服务等。传统方法基于预先定义的任务规格与刚性的控制策略,这些方法在非结构化的真实环境中会明显失效——尤其面对新物体、含糊的自然语言指令或未见过的场景布局时——从而暴露出其在可扩展性与泛化能力上的固有局限。
2025-10-24 10:29:50
1172
原创 调研遥操作方案并进行优劣势对比
1. 能够轻松应用于自研与非自研机械臂,易用好用2. 在真实环境中和仿真场景中都可以使用3. 成本4. 有无现有的社区经验,降低学习成本5. 是否方便进行数据收集,比如收集数据时我们能看到只有模型能够接收到的视角,如果是上帝视角收集的数据,效果需要测试(我现在在box2bowl上有上帝视角记录的50条数据,后续可以测试只看双摄记录数据的效果),但是打开摄像头就会占用大量带宽6. 扩展性。
2025-10-20 18:47:20
791
原创 Genie Envisioner--智元机器人--世界模型框架--2025.8.7
能在物理世界中感知、推理并行动的具身代理,是人工智能系统的下一个前沿方向。核心的基础性研究挑战仍是:开发可扩展且鲁棒的机器人操控能力——即通过有选择的接触有目的地与物理环境交互并控制它。尽管该领域已取得大量进展——从分析方法(Berenson 等,2009;Stilman,2007)、基于模型的框架(Ebert 等,2018;Janner 等,2019;Nagabandi 等,2020),到从大规模数据集中学习操控策略的数据驱动方法(Black 等,2024;Brohan 等,2023;
2025-10-20 10:47:24
1368
原创 RynnVLA-001-7B: 使用人类演示增强机器人Manipulation--达摩院--2025.9.18--开源
过去几年里,大规模语言模型(……)、大规模多模态模型(……)、基于视觉的识别模型(……)以及生成模型(……)都取得了快速进展。这些领域的成功主要归功于大规模数据集的可用性。例如,大型语言模型受益于来自网络来源的充足训练数据,这些数据相对容易获取。相比之下,Vision-Language-Action(VLA)模型的发展受制于大规模机器人操作数据的稀缺。收集这类数据通常依赖人工遥操物理机器人来记录操作轨迹,因此构建大规模数据集既费时又昂贵。为应对数据稀缺问题,已有一些早期尝试。一方面,有些方法提出构建。
2025-10-10 19:11:47
1169
原创 EO-Robotics --上海AI lab -- 2025.9.9 -- 开源
近期的 vision-language-action(VLA)模型通过在大规模机器人数据与视觉-文本数据上联合训练,已经在通用机器人控制方面展示了显著进展。然而,它们在交错进行的推理与交互中,仍未达到人类水平的灵活性。早期的通用机器人策略主要把 vision–language models(VLMs)扩展为 vision-language-action(VLA)模型,借助领域特定的机器人数据;方法上要么通过对离散 action tokens的decoding 来生成动作,要么加入额外的连续。
2025-10-10 09:28:18
1085
原创 Diffusion 模型解读
首先是前向扩散过程,一张原始图片经过T次加噪,得到一张杂乱无章的噪声图,原始论文加了2000次是否有一种反向过程,能够把噪声图逐步去噪还原回图像。什么是加噪?每次加一个01分布的高斯噪声对于反向过程其实就是训练出一个神经网络,它可以预测出噪声,然后xtx_txt时间步的信息减去模型预测出的噪声,就得到xt−1x_{t-1}xt−1时间步的图片,这就是去噪的一个过程。训练阶段。
2025-09-22 20:46:54
783
原创 lerobot0.3.3--smolvla--so101部署--代码debug
已经在smolvla上进行了相关实验并跑通,现在来看一下lerobot的repo是怎么实现smolVLA对SO101的控制的微调就不说了,没啥好说的,和其他的都差不多。
2025-09-22 10:08:27
1293
原创 WALL-OSS--自变量机器人--2025.9.8--开源
作者的紧耦合 MoE 架构、用以增强 VLM 具身理解的多模态课程化训练,以及多阶段训练计划,共同构成了一条统一的、灵活的、可微分的端到端映射路径:从高层指令——通过 CoT(Chain-of-Thought)与子任务分解——到离散动作,再到连续动作。另外,一些方法(如 3D-VLA(79)与 PointVLA(41))尝试使用 3D 视觉模态作为 2D 视觉与动作之间的桥梁,但 3D 数据同样难以获取,且现有的 3D 视觉基础模型(如 VGGT(69)和 π3(72))在精细动作预测所需的精度上仍不够。
2025-09-17 22:14:28
1565
原创 Galaxea 开源数据集和双系统G0--星海图--2025.8.30--2025年9月陆续开源
VLA 模型已成为关键范式,目标是使机器人能够自主地感知、推理并在物理世界中执行复杂任务。尽管已取得显著进展,但由于缺乏大规模、高质量、开源的真实世界机器人数据,仍然存在显著瓶颈。现有数据集(例如 Open-X Embodiment)主要受到任务现实性受限与环境丰富度不足的制约。这些不足会削弱训练模型在多样真实世界情境下的泛化能力。为应对该挑战,提出了 Galaxea Open-World 数据集——一个面向移动操控的、规模大且精心策划的真实世界开源数据集。
2025-09-17 10:05:59
1645
2
原创 CLIP、DALL·E 1的解读
这东西是干什么的呢?这个都是有论文的,但是我们看技术博客就可以。既然我们在上面能够构建图片和文字之间的关系,那能不能通过文字反向生成图片呢?想写什么东西都可以,把文本做一个编码,根据这个编码生成图片首先得熟悉下VQGAN,它相当于生成器,CLIP相当于判断器(看生成结果与描述是否相同)。图像如何表示,NLP中我们对文本向量化,我们能否对图像离散向量化?怎么做离散化呢?通过codebook,首先特征这个东西肯定是连续的一些值,组合在一起的,那就得把特征离散化再整合。
2025-09-11 21:42:43
757
原创 RynnVLA-001--达摩院--开源--2025.8.11--介绍与源码剖析
得益于大规模数据集的可用性,近几年语言模型、多模态模型、基于视觉的感知模型以及生成模型取得了快速进展。相比之下,机器人模型的发展仍然受限于大规模机器人操控数据采集的高人工成本,因此进展相对有限。在本工作中,尝试通过利用生成先验来缓解这一挑战。RynnVLA-001,一种基于大规模视频生成预训练的视觉—语言—动作(VLA)模型,建立在预训练视频生成模型之上。。RynnVLA-001 在约1,200 万条第一人称视角的操控视频上进行了预训练。将下一帧预测与下一动作预测。
2025-09-11 10:04:51
912
原创 RoboTwin2.0--CVPR2025--港大--2025.6.22--开源
为基础,使得能在广泛的物体类别和操作场景上可扩展地实例化任务。为了保证高质量的专家演示,将该自动化生成流程与 RoboTwin 2.0 的全面域。
2025-09-08 10:10:52
1053
原创 SmolVLA_0.5B--开源--HuggingFace--2025.6.2
(剪刀图标表示)。剩余的层将三类输入编码为 embeddings:(i) 语言指令,(ii) RGB 图像(或多帧),和 (iii) 机器人传感器-运动状态(sensorimotor state)。将这些合并的 tokens 输入到一个 Action Expert,该模块由交替的 cross-attention(交叉注意力,金色) 和 self-attention(自注意力,浅黄色) 模块组成。该模块使用。
2025-09-03 15:12:58
1283
原创 RoboTwin--CVPR2025--港大--2025.4.17--开源
的任务变体,从而限制了它们对新场景的泛化能力。现有基准的另一个局限是,它们主要集中于。
2025-08-22 22:09:49
1420
原创 8. 写一个自己的shell
因此只要不为 NULL,while 条件就为真,继续循环;一旦 strtok 返回 NULL,赋给 _argv[i] 后,条件为假,循环结束。当我们输入命令:abcd,然后一敲回车,就会变成abcd\n,最终就是abcd\n\0,strelen(abcd\n)=5,所以。至此我们的shell就可以跑起来了,可以输入命令,然后执行等等。最后的结论:当我们进行登陆时,系统就是要启动一个shell进程,shell本身的环境变量表是从哪里来的?str是要分割的字符串,delim是分隔符,默认为空格,当。
2025-08-22 10:46:03
670
原创 5. Dataloader 自定义数据集制作
random shuffle 做一个随机打乱,一个一个 batch 从 queue 中取数据,这里需要能够快速的把数据打包好给训练器。Dataloader 就是 pytorch 提供的一种的方法。
2025-08-19 09:58:06
472
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅