CVPR 2025 | MoManipVLA:通用移动操作VLA策略迁移!

点击下方卡片,关注“具身智能之心”公众号

>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

本文为论文作者投稿,这里提出了 MoManipVLA,一种全新的通用移动操作视觉-语言-动作模型(Vision-Language-Action Model, VLA)。该模型能够在真实场景中仅用 50 个训练轨迹 即实现 40% 的成功率,显著提升了移动操作任务的效率与泛化能力。

论文地址: https://arxiv.org/abs/2503.13446

项目主页: https://gary3410.github.io/momanipVLA/

1. 简介

移动操作使机器人能够在广阔空间内执行复杂的操作任务,这需要对移动底座和机械臂进行全身协调控制。随着居家服务、智能制造、物流仓储等领域对机器人自主移动操作需求的日益增长,任务复杂性和物体多样性对移动操作模型的泛化性提出了严峻挑战。

然而,现有的移动操作框架缺少大规模预训练,导致整体泛化性低下。同时,收集手脚协同的移动操作数据轨迹昂贵成本,进一步限制了移动操作模型性能。

近年来,视觉-语言-动作模型(VLA) [1, 2] 在任务泛化和场景适应方面展现了卓越性能。然而,现有的 VLA 研究主要聚焦于固定底座操作,由于缺乏对移动底座动作的预测能力,使其难以直接应用于移动操作场景。为此,我们提出了 MoManipVLA,一个高效的策略迁移框架,将固定底座的 VLA 模型迁移到移动操作任务中。

具体而言,MoManipVLA 利用预训练的 VLA 模型生成高泛化的 末端执行器路标(Waypoint),以指导移动操作轨迹的生成。同时,我们为移动底座和机械臂设计了基于场景约束的 运动规划目标,包括:

  • 可达性(Reachability)

  • 轨迹平滑性(Smoothness)

  • 避碰(Collision Avoidance)

从而最大限度地提高移动操作轨迹的 物理可行性。为了高效规划全身运动,我们提出了一种 双层轨迹优化框架(Bi-level Trajectory Optimization)

  • 上层优化 负责预测底座运动轨迹,以增强机械臂的操作策略空间。

  • 下层优化 选择机械臂的最佳轨迹,确保其遵循 VLA 模型的规划完成任务。

更详细的demo video可以在项目主页观看。

2. 方法

我们的方法的核心思想是 利用 VLA 的强泛化能力,引导机器人底座和手臂的轨迹生成,通过 动作规划目标 生成物理可行的轨迹,让机械臂末端执行器在移动操作设定下到达 VLA 预测的路标,从而完成后续操作任务。

2.1 策略迁移网络

在大规模互联网数据集上预训练的 VLA 模型在 任务泛化 和 场景迁移 方面展现了极强的性能。然而,现有的 VLA 仅限于 固定底座操作。为了高效迁移到 移动操作任务,我们提出了 MoManipVLA 框架,具体如图1所示。

图1 整体框架流程图
图1 整体框架流程图

具体来说:

  1. VLA 模型生成末端执行器路标 —— 通过视觉观测,预训练 VLA 模型输出机械臂末端执行器的高泛化路标。

  2. 优化动作规划目标 —— 设计 运动规划优化目标(Motion Planning Objectives),确保交互轨迹物理可行(可达性、避碰、平滑性)。

  3. 双层轨迹优化框架 —— 由于底座和机械臂的位姿搜索空间庞大,我们进一步提出 双层轨迹优化框架(Bi-level Trajectory Optimization)

  • 上层优化 预测底座运动轨迹,以增强后续操作策略空间,确保末端执行器可以到达路标。

  • 下层优化 机械臂动作,以精准执行 VLA 预测的目标路标。

2.2 移动运动规划目标

运动规划旨在为机器人底座和手臂生成路标之间的运动轨迹。我们通过设计不同的约束来为交互轨迹赋予可达性、平滑性和无碰撞物理含义。我们主要设计了三个约束:可达性(Reachability cost)、平滑性(Smoothness cost)和避碰(Collision cost),具体如图2所示。

图2 动作规划约束示意图
图2 动作规划约束示意图
  • 可达性(Reachability Cost)

    • 由于移动操作需要机器人与大范围内的物体进行交互,底座位姿显著影响手臂能否到达目标物体

    • 我们使用 逆运动学(IK)求解器 计算可达性成本。

  • 在最大迭代次数( )内获取关节角度解表明轨迹是可到达的。迭代次数越多,IK求解速度越慢意味着关节角度越接近范围限制,可达成本越高。

  • 轨迹平滑性(Smoothness Cost)

    • 约束机器人手臂 关节角度 以及 底座的平移和旋转 保持连续平滑,避免突然变化。

    • 平滑轨迹 有助于机器人控制的稳定性。

  • 避碰(Collision Cost)

    • 机器人需要避免 手臂、移动底座和环境中的物体 之间的碰撞,以确保安全。

    • 我们利用 nvblox 计算 ESDF(欧几里得距离场),并通过 随机采样机器人表面上的查询点 评估碰撞风险。

  • 其中,  为安全距离阈值。只有当距离小于该阈值时,才会对整体目标产生贡献,从而促使生成的轨迹尽可能远离障碍物。

2.3 双层轨迹优化框架

由于 移动底座和机械臂的姿态搜索空间庞大,直接搜索最优解非常困难。因此,我们提出 双层轨迹优化框架 来提高轨迹生成的效率:

  • 上层优化 预测底座轨迹,以增强后续机械臂的操作策略空间。

  • 下层优化 机械臂轨迹,使其遵循预训练 VLA 模型的规划完成操作任务。

具体如图3所示

图3 双层优化示意图
图3 双层优化示意图

整个双层轨迹优化算法流程可以概括为以下伪代码:

  1. 初始化:根据当前观测状态与 VLA 预测的路标,利用线性插值生成初始轨迹。设定初始时刻 

  2. 上层优化阶段

  • 对于每个迭代步  ,固定当前机械臂状态,随机采样底座候选轨迹;

  • 针对每个底座候选随机采样交互轨迹并计算期望成本,选择期望值较低的候选作为新的底座状态;

  • 更新底座轨迹直到满足终止条件。

内容概要:《机器人综合基础实践教程》(入门篇、提高篇)涵盖了机器人基础构建、编程控制、传感器应用等多个方面。教程从机械零件简介入手,逐步介绍主控板和编程环境的配置,随后通过一系列实验引导读者动手实践,包括驱动轮模块、双轮万向车、红外启动小车、带传动模块、履带机器人、红绿灯等实验。这些实验不仅帮助读者理解基本原理,还涉及高级应用如蓝牙电子温度计、语音识别、双轮小车平衡、蓝牙排爆机器人和WiFi视频排爆等。教程旨在培养读者的空间构型能力、编程技巧和综合调试能力,为机器人技术的实际应用打下坚实基础。 适用人群:具备一定编程基础和技术兴趣的学生、教师及爱好者,特别是对机器人技术感兴趣的初学者和中级学习者。 使用场景及目标:①帮助学生理解机器人基本原理,掌握机械零件组装和编程控制;②通过实际操作,提升编程和调试技能;③为机器人竞赛、项目开发和创新实践提供理论和实践指导;④培养创新思维和解决实际问题的能力。 其他说明:教程不仅提供详细的实验步骤和代码示例,还配有丰富的参考资料和光盘课件,确保学习者能够全面理解和掌握知识点。此外,教程强调实践操作的重要性,鼓励学习者通过动手实验加深理解,培养独立思考和解决问题的能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值