论文标题:
TRANSIC: Sim-to-Real Policy Transfer by Learning from Online Correction
论文作者:
Yunfan Jiang, Chen Wang, Ruohan Zhang, Jiajun Wu, Li Fei-Fei
导读:
在机器人领域,从模拟环境中学习并在现实世界中部署所学习到的策略是研究者们长期追求的目标。这种方法的关键在于解决模拟与现实之间的差距(sim-to-real
gaps)。以往的方法通常需要事先具备特定领域的知识。然而,TRANSIC提出了一种新的思路:通过让人类观察并协助现实世界中的机器人策略执行,机器人可以从人类那里学习,以缩小各种sim-to-real差距。©️【深蓝AI】编译
1. TRANSIC:人在循环框架下的模拟到现实策略迁移方法
TRANSIC是一种数据驱动的方法,其核心在于利用人类操作者的实时干预和纠正来克服模拟与现实之间的差异,即sim-to-real gaps。
在模拟环境中,机器人首先通过强化学习训练得到基础策略。随后,这些策略被部署到真实机器人上,由人类操作员监控执行情况。当机器人遇到错误或困难时,操作员会进行必要的干预,通过遥操作提供在线纠正。这些干预和纠正的数据被收集起来,用于训练一个残差策略,该策略能够学习预测并纠正机器人的状态差异。最终,基础策略和残差策略在测试时通过一个集成部署框架结合起来,通过门控机制决定何时应用残差策略,以实现更自然、更流畅的动作执行。TRANSIC方法的一个显著优势是它能够显著提