让机器人从模拟走向现实:李飞飞新作TRANSIC实现这一跨越

论文标题:

TRANSIC: Sim-to-Real Policy Transfer by Learning from Online Correction

论文作者:

Yunfan Jiang, Chen Wang, Ruohan Zhang, Jiajun Wu, Li Fei-Fei

导读:

在机器人领域,从模拟环境中学习并在现实世界中部署所学习到的策略是研究者们长期追求的目标。这种方法的关键在于解决模拟与现实之间的差距(sim-to-real
gaps)。以往的方法通常需要事先具备特定领域的知识。然而,TRANSIC提出了一种新的思路:通过让人类观察并协助现实世界中的机器人策略执行,机器人可以从人类那里学习,以缩小各种sim-to-real差距。©️【深蓝AI】编译

1. TRANSIC:人在循环框架下的模拟到现实策略迁移方法

TRANSIC是一种数据驱动的方法,其核心在于利用人类操作者的实时干预和纠正来克服模拟与现实之间的差异,即sim-to-real gaps。

在模拟环境中,机器人首先通过强化学习训练得到基础策略。随后,这些策略被部署到真实机器人上,由人类操作员监控执行情况。当机器人遇到错误或困难时,操作员会进行必要的干预,通过遥操作提供在线纠正。这些干预和纠正的数据被收集起来,用于训练一个残差策略,该策略能够学习预测并纠正机器人的状态差异。最终,基础策略和残差策略在测试时通过一个集成部署框架结合起来,通过门控机制决定何时应用残差策略,以实现更自然、更流畅的动作执行。TRANSIC方法的一个显著优势是它能够显著提

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值