【论文+VLA】2505.GraspVLA——基于十亿级合成动作数据预训练的抓取基础模型(即将开源)

时间:2025.05.07

项目地址https://pku-epic.github.io/GraspVLA-web/

论文: 2505.GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data

媒体报道真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!

核心问题与动机

现有的具身基础模型(如视觉-语言-动作模型,VLA)依赖真实世界数据收集,成本高且难以扩展。本文探索合成数据在训练VLA模型中的潜力,提出​​GraspVLA​​,一个完全基于合成数据预训练的抓取基础模型,旨在通过大规模合成数据解决真实数据不足的问题,并实现开放词汇的抓取泛化。

还有GraspVLA团队总结的具身基础模型七大泛化「金标准」,按照Vision、Language、Action进行不同分层,这些标准包括:光照泛化、干扰物泛化、平面位置泛化、高度泛化、背景泛化、物体类别泛化、闭环能力。


主要贡献

  1. ​SynGrasp-1B数据集​

    • ​规模与内容​​:包含十亿帧抓取数据,覆盖240个类别、10,000个物体,通过物理仿真(MuJoCo)和光线追踪渲染(Isaac Sim)生成。
    • ​多样性增强​​:域随机化(光照、背景、相机参数等)和高效生成策略(异步写入、并行处理),确保数据覆盖广泛几何与视觉变化。跨6个方面的概括性,包括干扰因素,空间姿势,类别,照明,背景和近环动作
    • ​优化轨迹生成​​:单步运动规划提升轨迹平滑性,减少模仿学习中的犹豫行为。
  2. ​GraspVLA模型架构​

    • ​视觉-语言-动作整合​​:结合视觉编码器(DINO-v2 + SigLIP)、语言模型(InternLM2 1.8B)和动作生成模块(条件流匹配)。
    • ​渐进式动作生成(PAG)​​:将感知任务(视觉定位、抓取位姿预测)作为动作生成的中间步骤,形成链式推理(Chain-of-Thought),联合训练合成数据与互联网语义数据(如GRIT),融合几何与语义知识。
    • ​训练策略​​:合成数据训练完整链式流程,互联网数据仅训练感知部分,实现跨模态知识迁移。
  3. ​实验验证​

    • ​零样本泛化​​:在真实和仿真环境中(如LIBERO)显著优于现有模型(如AnyGrasp、π₀、OpenVLA),尤其在透明物体和长尾类别(如充电器、毛巾)上表现优异。
    • ​少样本适应性​​:仅需少量标注数据即可适应新任务(如避免触碰杯子内部、密集环境顺序抓取)。
    • ​效率与鲁棒性​​:闭环策略减少模块化系统的误差累积,PAG机制提升动作生成的连贯性和成功率。

方法细节

数据集生成流程
  1. ​物体布局生成​​:从Objaverse筛选物体,随机缩放、姿态放置于桌面,生成多样化场景。
  2. ​抓取轨迹规划​​:基于抓取合成算法生成稳定抓取位姿,使用CuRobo规划无碰撞轨迹,并通过物理仿真验证成功率。
  3. ​视觉渲染与随机化​​:Isaac Sim渲染多视角RGB图像,随机化光照、背景、相机参数,提升泛化能力。
模型设计
  • ​PAG机制​​:
    • ​步骤1(感知)​​:视觉语言模型生成目标物体的2D边界框。
    • ​步骤2(几何推理)​​:结合本体感觉(proprioception)预测3D抓取位姿。
    • ​步骤3(动作生成)​​:基于流匹配(Flow Matching)生成精细的末端执行器动作序列。
  • ​联合训练​​:合成数据监督完整流程(边界框→抓取位姿→动作),互联网数据仅监督边界框预测,实现跨模态对齐。

实验结果

  1. ​零样本抓取成功率​

    • ​真实世界​​:在光照变化、背景干扰、物体高度变化等条件下,GraspVLA平均成功率93.3%,远超基准模型(如π₀的76.6%)。
    • ​仿真环境(LIBERO)​​:在长序列任务(Long Suite)中零样本成功率82%,优于经过微调的OpenVLA(33.7%)和π₀(62.7%)。
  2. ​透明物体抓取​

    • AnyGrasp因点云不完整导致成功率仅10%,GraspVLA通过多视角视觉和语义推理达到86.6%。
  3. ​少样本微调​

    • 仅需100条标注数据,模型可适应新任务(如工业零件抓取),成功率90%,而从头训练模型仅30%。

局限与未来方向

  • ​当前局限​​:仅限于Franka机械臂和固定视角配置;对模糊指令(如“抓取左边的物体”)处理不足;未考虑可变形物体的物理特性。
  • ​未来工作​​:扩展至更多机器人平台和任务(如非抓取操作);结合强化学习生成复杂轨迹;优化推理速度(当前5Hz vs. AnyGrasp的37Hz)。

总结

GraspVLA通过大规模合成数据预训练和创新的链式推理机制,显著提升了抓取任务的泛化能力和适应性,为机器人基础模型提供了一种高效且可扩展的训练范式。其代码、数据集及预训练权重已开源,推动社区在合成数据驱动的具身智能研究。

内容概要:文章介绍了DeepSeek在国内智能问数(smart querying over data)领域的实战应用。DeepSeek是一款国内研发的开源大语言模型(LLM),具备强大的中文理解、推理和生成能力,尤其适用于企业中文环境下的智能问答、知识检索等。它具有数据可控性强的特点,可以自部署、私有化,支持结合企业内部数据打造定制化智能问数系统。智能问数是指用户通过自然语言提问,系统基于结构化或非结构化数据自动生成精准答案。DeepSeek在此过程中负责问题理解、查询生成、多轮对话和答案解释等核心环节。文章还详细展示了从问题理解、查询生成到答案生成的具体步骤,并介绍了关键技术如RAG、Schema-aware prompt等的应用。最后,文章通过多个行业案例说明了DeepSeek的实际应用效果,显著降低了数据使用的门槛。 适合人群:从事数据分析、企业信息化建设的相关从业人员,尤其是对智能化数据处理感兴趣的业务和技术人员。 使用场景及目标:①帮助业务人员通过自然语言直接获取数据洞察;②降低传统BI工具的操作难度,提高数据分析效率;③为技术团队提供智能问数系统的架构设计和技术实现参考。 阅读建议:此资源不仅涵盖了DeepSeek的技术细节,还提供了丰富的实战案例,建议读者结合自身业务场景,重点关注DeepSeek在不同行业的应用方式及其带来的价值。对于希望深入了解技术实现的读者,可以进一步探索Prompt工程、RAG接入等方面的内容。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

曾小蛙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值