从未见过现实世界数据,MIT在虚拟环境中训练出机器狗,照样能跑酷

如今,机器人学习最大的瓶颈是缺乏数据。与图片和文字相比,机器人的学习数据非常稀少。目前机器人学科的主流方向是通过扩大真实世界中的数据收集来尝试实现通用具身智能,但是和其他的基础模型,比如初版的 StableDiffusion 相比,即使是 pi 的数据都会少七八个数量级。MIT 的这个团队希望用生成模型来作为机器人学习的新数据源,用工程手段来取代传统的数据收集,实现一条通过由生成模型加持的物理仿真来训练机器人视觉的技术路线。

随着机器人在训练过程中持续进化,进一步提升技能所需的数据也在增长。因此获取足够的数据对于提升机器人的性能至关重要,但在当前实践中,针对新场景和新任务获取数据是一个从头开始不断重复的手动过程。

另一种替代方法则是在模拟环境中训练,从中可以对更多样化的环境条件进行采样,并且机器人可以安全地探索故障案例并直接从它们自己的行为中学习。尽管业界已经在模拟物理和渲染方面投入了大量资金,但目前为实现真实性所做的最佳实践仍与现实存在差距。

一方面渲染真实的图像意味着要制作细致、逼真的场景内容,但大规模手动制作此类内容以获得机器人 sim-to-real(模拟到现实)迁移所需要的多样性,成本过高。另一方面,如果缺少多样化和高质量的场景内容,在模拟环境中训练的机器人在迁移到真实世界时表现得太脆弱。

因此,如何在无限的虚拟环境中匹配现实世界,并将色彩感知融入到 sim-to-real 学习中,这是一个关键挑战。

近日, MIT CSAIL 的研究者开发出了一套解决方案,他们将生成模型作为机器人学习的新数据源,并使用视觉跑酷(visual parkout)作为试验场景,让配备单色相机的机器狗快速攀爬障碍物。

研究者的愿景是完全在生成的虚拟世界中训练机器人,而核心在于找到精确控制语义组成和场景外观的方法,以对齐模拟物理世界,同时保持对于实现 sim-to-real 泛化至关重要的随机性。

图片

  • arXiv 地址:https://arxiv.org/pdf/2411.00083

  • 项目主页:https://lucidsim.github.io/

  • 论文标题:Learning Visual Parkour from Generated Images

下图 2 为本文 LucidSim 方法概览:采用了流行的物理引擎 MuJoCo,并在每一帧上渲染了深度图像和语义掩码,这些一起被用作深度条件 ControlNet 的输入。然后从已知的场景几何和相机姿态变化中计算真值密集光流,并在接下来的六个时间步中扭曲原始生成帧以生成时间一致的视频序列。

在学习方面,研究者训练的视觉策略分为两个阶段完成:首先优化策略以模拟从特权教师收集的 rollout 中获得的专家行为。在经过这一预训练步骤后,策略表现不佳。因此,后训练步骤包括从视觉策略本身收集 on-policy 数据,并与当前收集的所有数据的学习交错进行。重复这一步骤三次使得该视觉策略显著提升了自身性能。

研究者表示,该策略足够稳健,在他们的测试场景中可以将零样本转换为真实世界的色彩观察。

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值