点击下方卡片,关注“具身智能之心”公众号
作者丨具身智能之心
本文只做学术分享,如有侵权,联系删文
更多干货,欢迎加入国内首个具身智能全栈学习社区:具身智能之心知识星球(戳我),这里包含所有你想要的。
出发点与核心问题
机器人学习领域长期面临数据稀缺的挑战。当前主流的数据收集方式——人类遥操作(teleoperation)存在以下局限性:
成本高昂:依赖人工操作,单次演示耗时约1-2分钟
可扩展性差:最大规模的数据集(约10万条)仍比LLM/VLM训练数据小100,000倍
硬件依赖:需特定机器人实体,难以跨平台复用
传统解决方案如物理仿真存在固有缺陷:
动力学模型不精确(如能量不守恒)
复杂接触建模需人工调参
高保真资产创建耗时
核心科学问题:能否在不依赖动力学仿真或人类遥操作的情况下,通过计算方法规模化生成机器人视觉-动作数据?

方法创新:R2R2R技术框架
1)整体流程
R2R2R通过三阶段流程实现数据生成:
Real-to-Sim转换:
输入:智能手机拍摄的多视角物体扫描+单段人类演示视频
输出:带纹理的3D网格资产+6-DoF物体运动轨迹
数据增强:
物体初始位姿随机化
运动轨迹插值生成新变体
并行渲染:
使用IsaacLab引擎生成光真实感的机器人执行视频
输出RGB图像-动作对(兼容VLA模型)
2)关键技术突破
(1) 3D高斯泼溅重建(3DGS)
采用GARField算法实现物体/部件级语义分割
支持刚体和铰接物体(如抽屉、水龙头)
通过SuGaR方法转换为兼容渲染引擎的网格
(2) 轨迹多样性生成
空间归一化:将原始轨迹转换到规范空间
球面线性插值(Slerp):保持运动语义
采样启发式:避免目标位姿附近的无效初始化
(3) 无动力学假设的逆运动学
使用PyRoki求解器生成关节空间轨迹
关键假设:接触期间物体刚性跟随轨迹
避免模拟摩擦/变形等复杂物理现象
实验验证
1)实验设置
硬件平台:ABB YuMi双臂机器人(训练时未见过的形态)
对比基准:人类遥操作数据(50-150条)vs R2R2R生成数据(50-1000条)
评估任务:
单物体抓取(拾取玩具虎)
多物体交互(将杯子放在咖啡机上)
铰接物体操作(关闭水龙头/打开抽屉)
双手协调(双手抬起包裹)
2)核心发现
(1) 数据效率对比
单GPU速度:51条/分钟(人类遥操作仅1.7条/分钟)
时间成本:生成1000条数据仅需13-38分钟(人类收集150条需60-104分钟)
(2) 策略性能分析
低数据量时(<150条),真实数据更具样本效率
当R2R2R数据量达到1000条时,性能与人类数据相当(p>0.05,等效性检验)
技术优势与局限性
1)创新价值
免仿真:完全规避物理引擎的建模误差
硬件无关:仅需智能手机采集的2D视频
轨迹多样性:单次演示可生成数百变体
跨形态兼容:支持不同机器人URDF模型
2)当前局限
限制维度
具体表现
改进方向
物理交互建模
无法模拟滑动/形变
集成增量势接触模型(IPC)
环境感知
缺乏碰撞检测
结合快速运动规划
操作类型
仅支持抓取式操作
扩展非抓取动作(推动/倾倒)
抓取泛化性
仅兼容平行夹爪
支持多指灵巧手
跟踪鲁棒性
易受反光/遮挡干扰
置信度感知滤波
参考
[1] Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware
文章首发于国内首个具身智能之心全栈技术平台,具身智能之心知识星球,欢迎扫码加入和近300家公司和高校交流!