让机器人从模拟走向现实:李飞飞新作TRANSIC实现这一跨越

论文标题:

TRANSIC: Sim-to-Real Policy Transfer by Learning from Online Correction

论文作者:

Yunfan Jiang, Chen Wang, Ruohan Zhang, Jiajun Wu, Li Fei-Fei

导读:

在机器人领域,从模拟环境中学习并在现实世界中部署所学习到的策略是研究者们长期追求的目标。这种方法的关键在于解决模拟与现实之间的差距(sim-to-real
gaps)。以往的方法通常需要事先具备特定领域的知识。然而,TRANSIC提出了一种新的思路:通过让人类观察并协助现实世界中的机器人策略执行,机器人可以从人类那里学习,以缩小各种sim-to-real差距。©️【深蓝AI】编译

1. TRANSIC:人在循环框架下的模拟到现实策略迁移方法

TRANSIC是一种数据驱动的方法,其核心在于利用人类操作者的实时干预和纠正来克服模拟与现实之间的差异,即sim-to-real gaps。

在模拟环境中,机器人首先通过强化学习训练得到基础策略。随后,这些策略被部署到真实机器人上,由人类操作员监控执行情况。当机器人遇到错误或困难时,操作员会进行必要的干预,通过遥操作提供在线纠正。这些干预和纠正的数据被收集起来,用于训练一个残差策略,该策略能够学习预测并纠正机器人的状态差异。最终,基础策略和残差策略在测试时通过一个集成部署框架结合起来,通过门控机制决定何时应用残差策略,以实现更自然、更流畅的动作执行。TRANSIC方法的一个显著优势是它能够显著提高sim-to-real转移的性能,同时相比于其他仅依赖真实机器人轨迹的方法,它需要的真实世界数据更少。

在这里插入图片描述
▲图1|TRANSIC在真实的接触场景中,实现模拟到真实的转换©️【深蓝AI】编译

TRANSIC的核心是人在循环学习和共享自主权。通过直接在策略执行期间提供在线纠正信号来帮助物理机器人,可以学到关闭sim-to-real差距所需的知识。TRANSIC方法包括以下几个关键步骤:

1)模拟训练基础策略:首先,在模拟环境中通过强化学习(RL)训练基础机器人策略。

2)人工循环数据收集:将基础策略部署到真实机器人上,由人类操作员监控执行。在机器人犯错或陷入困境时,人类通过遥控操作进行干预和纠正。

3)残差策略学习:收集人类干预数据,训练残差策略,以预测和纠正机器人状态之间的差异。

4)集成部署框架:在测试期间,将基础策略和残差策略结合起来,通过一个门控函数决定是否应用残差策略。

在这里插入图片描述
▲图2|TRANSIC方法概述©️【深蓝AI】编译

2. 设计复杂任务后用策略干预

为了实现通用机器人能处理泛化任务的目标,训练过程中需要大量的数据来学习解决复杂决策任务。通过先进的模拟环境,可以减轻在现实世界中使用物理机器人收集数据的负担。因此,无缝地转移和部署在模拟中获得的机器人控制策略至现实世界硬件至关重要。

为了验证TRANSIC方法的有效性,研究团队设计了一系列复杂的操控任务,包括家具组装等接触丰富的场景。

实验的核心在于模拟环境中训练的基础策略能否在现实世界中得到成功应用。实验分为两个阶段:

首先是模拟训练,然后是现实世界的测试与评估。在模拟训练阶段,机器人通过强化学习算法学习基础操控策略,如对物体的稳定、抓取、插入和拧紧等动作。这些策略随后被部署到真实机器人上,由人类操作员进行监控。操作员在机器人执行过程中遇到障碍或错误时,通过遥操作进行干预,提供必要的在线纠正。这些纠正数据被收集并用于训练残差策略,以预测和补偿基础策略中的不足。在集成部署阶段,基础策略和残差策略结合使用,通过一个门控机制来决定何时应用残差策略,以实现更精确的动作执行。

在这里插入图片描述
▲图3|本项工作中的四个基准任务:a)机器人将方形桌面推到墙的右角,以便在后续的组装步骤中保持稳定。b)机器人到达并抓住桌腿,它需要适当地调整末端执行器的方向,从而避免不合适的抓取姿势。c)机器人将预抓取的桌腿插入桌面的最右边的组装孔中。d)机器人的末端执行器被初始化后,靠近插入的桌腿,并将其顺时针拧入桌面©️【深蓝AI】编译

3. 实验结论:更好地完成复杂任务和有效学习地循环

实验结果显示,TRANSIC方法在多个任务上都取得了显著的成功。在家具组装任务中,机器人能够成功地将桌面稳定、抓取桌腿、插入并拧紧螺丝。这些任务的成功完成证明了TRANSIC在处理sim-to-real gaps方面的有效性。与直接部署模拟策略的传统方法相比,TRANSIC显著提高了任务的成功率,且减少了对真实机器人数据的依赖。

此外,实验还发现,随着人类干预数据的增加,TRANSIC的性能得到了进一步提升,显示出良好的数据扩展性。这表明,通过有效的人类指导和在线纠正,机器人能够更快地学习和适应现实世界中的复杂任务。然而,实验也指出了TRANSIC方法的一些局限性,如目前主要适用于桌面场景和特定的夹爪类型。

在这里插入图片描述
▲图4|每项任务的成功率对比,其中 TRANSIC 的平均成功率明显超过其他三个基准组©️【深蓝AI】编译

4. 总结与未来展望

TRANSIC方法与传统的sim-to-real方法相比具备以下优势:

● 更有效的sim-to-real转移:通过人类纠正数据的有效利用,TRANSIC在sim-to-real转移中取得了更好的性能;

● 更好的整合人类的反馈:与现有的交互式模仿学习方法相比,TRANSIC能更好地将人类的纠正整合到模拟中学习到的策略中;

● 需要更少的真实世界数据:与其他仅从真实机器人轨迹中学习的方法相比,TRANSIC需要更少的真实世界数据来实现良好的性能。

TRANSIC作为一种新颖的、全面的人在循环方法,为解决接触丰富操纵任务的sim-to-real策略转移提供了一种有效的解决方案。它展示了如何通过结合模拟中学习到的良好基础策略和有限的真实世界数据来实现成功。TRANSIC的成功实施为机器人学习领域提供了宝贵的见解,并为未来的研究和应用奠定了基础。尽管在sim-to-real转移方面取得了显著的成果,但仍存在一些限制,需要未来的研究来解决。例如,当前的任务限于桌面场景和软平行颚夹爪。此外,人类操作员在纠正数据收集阶段仍需手动决定何时进行干预,这一工作量可以通过利用自动故障检测技术来减少。未来的工作将探索如何将TRANSIC方法扩展到更广泛的机器人平台和更复杂的操控任务中,以及如何进一步减少对人类干预的依赖,提高自动化程度。

编译|Scarlett

审核|Los

移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。

  • 11
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值