不只是模仿,伯克利新研究赋予机器人跨实体自主学习的能力,零样本时代已来

导读:

在当今科技飞速发展的时代,机器人技术正不断地给我们带来惊喜和变革。2024 年 9 月,一篇来自加州大学伯克利分校、丰田研究所和Physical Intelligence 的研究论文RoVi-Aug: Robot and Viewpoint Augmentation for Cross-Embodiment Robot Learning引起了广泛关注。该创新性的机器人数据增强方法,在跨实体机器人的数据利用和学习方面有重大意义。©️【深蓝AI】编译

▲图1|RoVi-Aug整体流程概述©️【深蓝AI】编译

1. 背景

机器人的研究通常面料数据的收集和利用层面的困难。扩大数据规模虽然能使机器人学习到的策略更具通用性和鲁棒性,但收集真实机器人数据耗时耗力。现有的机器人学习数据集存在着机器人类型和相机角度分布不平衡的问题,这使得该数据对应的策略容易过拟合。例如,当一个策略在特定类型的机器人上训练后,可能无法很好地适应其他不同类型的机器人;或者当相机角度发生变化时,策略的性能会大幅下降。

Open-X Embodiment(OXE)项目通过合并数据集展示了协同训练的积极效果,但该数据集高度不平衡。此外,当政策在部署到其他机器人或不同相机角度时,往往需要进行微调,这增加了实际应用的复杂性和成本。测试时适应算法 Mirage 虽然能实现零样本转移,但也存在一些局限性。它需要精确的机器人模型和相机矩阵,不允许该数据集对应的策略进行微调,并且对相机姿态的变化有一定的限制。

2. 相关工作

■2.1 跨实体机器人学习

之前有很多研究对「如何使用多样的数据来源来增加样本效率和加速学习」做出了诸多尝试。例如,利用模拟数据、其他机器人数据和人类或动物视频等,通过联合训练,从而学习更稳健和通用的策略。最近,许多工作也开始探索如何在大型和多样化的真实机器人数据上进行训练。这为RoVi-Aug的研究提供了重要的理论基础和实践经验。

■2.2 生成式模型和机器人数据增强

生成式模型发展迅速,人们利用生成式模型进行机器人研究的兴趣也日益浓厚。例如,使用语言模型进行规划、控制、奖励规范和数据重新标记;图像和视频生成式模型用于生成模拟、数据增强和视觉目标规划等。RoVi-Aug正是在这一背景下,充分利用了扩散模型的优势,实现了机器人和视点的增强,为机器人学习和反馈带来了新的思路。

3. RoVi-Aug详细方法

■3.1 创新的数据增强方法:RoVi-Aug

RoVi-Aug是一种全新的机器人数据增强方法,它利用扩散模型生成具有新机器人和视点的轨迹。这一方法为机器人学习提供了更多样化的数据,有助于提高策略的通用性和鲁棒性。

具体来说,RoVi-Aug 包括机器人增强(Ro- Aug)和视点增强(Vi-Aug)两个部分。机器人增强能够将图像中的源机器人转换为不同的目标机器人,从而弥合不同机器人之间的视觉差距,实现零样本部署在目标机器人上。视点增强则可以提高策略对相机姿态变化的鲁棒性。

▲图2|给定机器人图像,RoVi-Aug使用最先进的扩散模型来增强数据,并生成来自不同机器人和视角的合成图像©️【深蓝AI】编译

■3.2 物理实验

通过一系列物理实验,研究团队得出了多个重要结论。

首先,机器人增强(Ro-Aug)能够有效地弥合机器人之间的视觉差距,使得训练好的策略可以在没有任何额外训练的情况下,直接部署在目标机器人上,并且表现出良好的性能。

其次,视点增强(Vi-Aug)可以显著提高策略对相机姿态变化的鲁棒性。在实际应用中,相机角度的变化是不可避免的,而Vi-Aug可以让策略更好地适应这种变化,提高机器人的自主决策能力。结合机器人和视点增强的RoVi-Aug能够成功地将策略零样本部署在具有不同相机角度的不同机器人上。这意味着,通过RoVi-Aug训练的策略可以在各种不同的机器人和环境中快速部署,大大提高了机器人的适应性和灵活性。

最后,RoVi-Aug还可以学习多机器人多任务策略,并提高了新机器人和任务的组合上通用策略的微调样本效率。这对于实际应用中的复杂任务和多机器人协作场景具有重要意义。

图3|用于做评估的任务©️【深蓝AI】编译在这里插入图片描述

■3.3 局限性

尽管RoVi - Aug取得了显著的成果,但它也存在一些局限性。

机器人增强的链路依赖于一系列不同的模型,可能会导致误差级联。研究人员可以探索统一的模型来处理多对机器人,提高系统的稳定性和准确性。对于视点增强,目前新视图合成的质量还有待提高。未来可以通过在机器人数据上微调模型或使用基于视频的模型来进一步改善新视图合成的效果。

此外,未来的相关研究可以结合RoVi-Aug与其他“增强“方法,如对象、背景和任务的增强,以获得更通用的策略,这将为机器人学习带来更多的可能性和创新。目前的研究只演示了固定机器人手臂之间的转移,未来可以考虑不同的抓手,如多指手,进一步拓展RoVi-Aug的应用范围。

4. 总结

RoVi-Aug在机器人数据学习方面具有重大意义的研究成果,它通过创新的数据增强方法,解决了机器人学习中数据不平衡和策略过拟合的问题,为机器人学习带来了新的思路和方法。尽管RoVi-Aug还存在一些局限性,但它的出现为机器人学习领域的未来发展指明了方向。相信在不久的将来,随着技术的不断进步,RoVi-Aug将会在更多的领域得到应用,为人类的生产和生活带来更多的便利和创新。

值得关注的是,RoVi-Aug的出现可能为机器人学习领域带来了广阔的应用前景。在工业生产中,不同类型的机器人可能需要执行相同的任务,而RoVi-Aug 可以让策略快速适应不同的机器人,提高生产效率和质量。在服务机器人领域,机器人需要在不同的环境中为人类提供服务,相机角度的变化和不同的机器人类型都是常见的情况。RoVi-Aug可以让服务机器人更加灵活和智能,更好地满足人类的需求。此外,在多机器人协作场景中,RoVi-Aug 可以学习多机器人多任务策略,提高机器人之间的协作效率和准确性。这对于未来的智能工厂、智能物流等领域具有重要的应用价值。让我们共同期待机器人技术在RoVi-Aug等创新研究的推动下,迈向更加智能、通用和高效的未来。
©️【深蓝AI】

Ref:
RoVi-Aug: Robot and Viewpoint Augmentation for Cross-Embodiment Robot Learning
编译|Scarlett
审核|Los

本文首发于微信公众号【深蓝AI】,移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态👇
深蓝AI·赋能自动驾驶+机器人+AI

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值