
RT2/OpenVLA/3D VLA为代表的VLA发展史
文章平均质量分 96
视觉语言动作机器人的起源、爆发,比如RT-2:给VLM加上动作模态RT1——从而变成VLA
v_JULY_v
七月在线创始人兼CEO,结构之法算法之道blog之博主
展开
-
3D版的VLA:从3D VLA、SpatialVLA到PointVLA——3D点云版的DexVLA,在动作专家中加入3D数据
之前写这篇文章的时候,就想解读下3D VLA来着,但一直因为和团队并行开发具身项目,很多解读被各种延后更是各种出差,比如从25年3月下旬至今,连续出差三轮,绕中国半圈,具身占八成而出差过程中接到的多个具身订单中,有一个人形开发订单涉及要遥操,而3D版的VLA也是一种备选方案「详见此文《》的开头」故回到长沙后,便准备解读下3D VLA来了,但既然解读3D VLA了,那就干脆把相关3D版本的VLA一并解读下,如此,便有了本文。原创 2025-04-14 23:57:54 · 1983 阅读 · 0 评论 -
OpenVLA-OFT——微调VLA时加快推理的三大关键设计:支持动作分块的并行解码、连续动作表示以及L1回归(含输入灵活化及对指令遵循的加强)
前言25年3.26日,这是一个值得纪念的日子,这一天,我司七月在线的定位正式升级为了:具身智能的场景落地与定制开发商 ,后续则从定制开发,逐步过渡到 标准产品化已帮组装好的硬件,和对应复现好的程序,包括且不限于ALOHA/RDT/umi/dexcap/idp3/π0,如此软硬一体标准化的产品,省去复现过程中的真正做到:一旦拿来,开箱即用我司具身落地中,过去半年用π0居多,其次idp3和其他模型,也是目前国内具身落地经验最丰富的团队之一了,且始终保持对具身最前沿技术的沟通。原创 2025-04-04 22:35:18 · 2800 阅读 · 4 评论 -
一次性总结数十个具身模型(2024-2025):从训练数据、动作预测、训练方法到Robotics VLM、VLA(如π0等)
本文一开始是属于此文的前言的,但考虑到其重要性,加之那么大一张表格 看下来 阅读体验较差,故抽出取来独立成文且拆分之具身的论文解读过很多之后,便会发现整个今24年的具身模型/策略大概如下所示——目前全网独一份「(建议按照从下至上的顺序看,且,我后续也会不断完善之——毕竟还有很多并未囊括于下表中,如转载请于文章开头标明作者July及本文链接。原创 2025-02-01 15:20:33 · 10037 阅读 · 2 评论 -
RoboVLM——通用机器人策略的VLA设计哲学:如何选择骨干网络、如何构建VLA架构、何时添加跨本体数据
前言本博客内解读不少VLA模型了,包括π0等,且如此文的开头所说前两天又重点看了下openvla,和cogact,发现总之,各种vlm + 各种动作预测头/方法,会出来很多vla当然,各种VLA我在本文的开头已经详细介绍过,可以参看《原创 2025-01-27 00:32:07 · 7418 阅读 · 4 评论 -
一文速览CogACT及其源码剖析:把OpenVLA的离散化动作预测换成DiT,逼近π0(含DiT的实现)
近年来,配备视觉能力的机器人控制模型引起了广泛的兴趣,比如7-RT-1,8-RT-2-将7D动作分解为离散的token,并使用VLM PaLI-X [13]像语言token一样自回归地预测它们30-Openvla-采用和RT-2类似的方法,对动作进行tokenizing,并在Open-X-Embodiment数据集[48]上训练Prismatic VLM其中,大规模视觉-语言-动作(VLA)模型的发展[原创 2025-01-12 12:10:35 · 4387 阅读 · 0 评论 -
一文通透OpenVLA及其源码剖析——基于Prismatic VLM(SigLIP、DinoV2、Llama 2)及离散化动作预测
一个多月前,有朋友曾说,一个月内,π0 会开源来着,当时虽然觉得不太可能,但还是抱着期待可还是没开..没开源必然是有点遗憾,故这两天我一直在考虑、对比,看目前哪个vla最逼近π0,然后借鉴π0的思路,去改造该vla前两天又重点看了下openvla,和cogact,然后对此文增加了不少解读内容,且发现总之,各种vlm + 各种动作预测头/方法,会出来很多vla。原创 2025-01-11 22:25:54 · 8506 阅读 · 0 评论 -
机器人大小脑的融合——从微调VLM起步的VLA发展史:详解RoboFlamingo、Octo、TinyVLA、DexVLA
许多研究使用从机器人收集的大量轨迹数据集来训练策略这些工作主要集中在单一的embodiment上,而Octo则在跨多个体现组装的机器人数据集上训练策略,增加了训练数据集的有效规模,并允许对多种机器人设置进行微调最近,论文集中于扩展机器人策略的泛化能力。多项研究利用多样的非机器人数据或预训练的视觉-语言基础模型来提升策略对新场景和任务的泛化能力[86,103,96,16,38,11,84,36,4,37,7,3,46,15,23]原创 2024-12-01 23:51:14 · 9199 阅读 · 15 评论 -
Google视觉机器人超级汇总:从RT、PaLM-E、RT-2到RT-X、RT-H(含Open X-Embodiment数据集详解)
随着对视觉语言机器人研究的深入,发现Google的工作很值得深挖,比如RT-2想到很多工作都是站在Google的肩上做产品和应用,Google真是科技进步的核心推动力,做了大量大模型的基础设施,服故有了本文,单独汇总Google在机器人领域的重大结果、进展。原创 2024-04-05 14:20:18 · 12251 阅读 · 0 评论