Reinforcement and Imitation Learning for Diverse Visuomotor Skills 论文简析

《Reinforcement and Imitation Learning for Diverse Visuomotor Skills》27.may.2018

1、摘要

我们提出了一种无模型深度强化学习方法,该方法利用少量演示数据来帮助强化学习代理。 我们将此方法应用于机器人操作任务,并训练直接从RGB摄像机输入映射到关节速度的端到端视觉运动策略。 我们证明了我们的方法可以解决各种各样的视觉运动任务,对于这些任务来说,脚本控制器的工程设计是费力的。 在实验中,我们的强化学习+模仿学习的方法,比仅用强化学习或模仿学习训练的模型获得了更好的表现。 我们还说明这些策略具有大的视觉和动态变化,可以在 zero-shot 从模拟环境到真实环境的迁移方面取得初步成功。可以在此视频中查看此工作的简要视觉描述。

2、模型框架

生成器(端到端):

输入: 机械臂的本体感知特征、相机像素;

输出:下一次关节的运动速度量(next joint velocity);

判别器:

输入:物体中心的位置特征 、 生成器输出的下一次关节运动速度(next joint velocity);

输出:评分Dψ(st,at) ,本文中的 rgail(st,at) = −log(1−Dψ(st,at)) ;

3、算法

在原始GAIL上作了以下改进:

(1)Generator 的策略 用 PPO更新(原始GAIL用TRPO);

(2)R_gail = −log(1−D)) ;

(3)R(st,at) = λ*Rgail(st,at)+(1−λ)R_task(st,at),   λ ∈ [0,1].,即 :R_overall = R_gail + (1−λ)R_task,作者觉得这样的好处是能能够把imitation的奖励函数 和 RL 的奖励(基于任务的奖励)函数综合起来,imitation的Reward能够使得生成的轨迹尽可能的接近样本的轨迹,其次,基于任务的奖励能够使得生成的策略尽可能的在针对特定任务环境下达到好的效果。

imitation reward encourages the policy to generate trajectories closer to demonstration trajectories, and the task reward encourages the policy to achieve high returns on the task.

(4) 实验中,两种奖励函数的平衡能够解决单独用GAIL或者RL不能解决的问题,且agent最终能够达到比人类样本更高的回报。

In our experiments, with a balanced contribution of these two rewards the agents can solve tasks that neither GAIL nor RL can solve alone. Further, the final agents achieve higher returns than the human demonstrations owing to the exposure to task rewards.

(5)GAIL部分的伪代码参照论文https://blog.csdn.net/hjw756517/article/details/88117996

4、结论

结合强化和模仿学习大大提高了我们训练能够从像素中解决具有挑战性的灵巧操作任务的系统的能力。 我们的方法实现了机器人技能学习管道的所有三个阶段:首先,我们收集了少量的演示数据以简化探索问题; 第二,我们依靠物理模拟进行大规模分布式机器人训练; 第三,我们为实际部署执行了sim2real的迁移。 在未来的工作中,我们寻求提高学习方法的样本效率,并利用现实经验来弥合策略迁移的现实差距。

5、讨论

在本文中,我们描述了一种通用的无模型深度强化学习方法,用于从RGB摄像机图像操作并使用关节速度控制执行操作的策略的端到端学习。我们的方法结合了通过生成对抗模仿学习[15]的演示与无模型RL的使用,以实现对困难任务的有效学习和强大的泛化。该方法仅需要少量演示轨迹(实验中每个任务30个)。此外,这种方法从状态轨迹(没有演示者动作)开始,结合使用仅由鉴别器看到的部分/特征化演示 - 这可以简化和增加数据收集期间的灵活性,并促进超出演示中所见条件的概括(例如可以通过不同的身体收集示范,例如通过动作捕捉的人类演示者。通过远程操作模拟手臂在每个任务不到30分钟的时间内收集演示。

我们的方法集成了几种新技术,以利用仿真提供的灵活性和可扩展性,例如访问特权信息和使用扩增RL算法。实验结果证明了其在仿真中复杂操作任务中的有效性,并实现了zero-shot到实际硬件的初步成功。我们使用相同的策略网络,相同的训练算法和相同的超参数训练所有策略。该方法利用任务特定信息,特别是在为鉴别器和RL奖励选择对象中心特征时。

在实践中,我们已经发现这些特征的直观特征,并且我们的方法对于特定的方法是相当稳健的选择,从而在(有限的)先验知识的需求和可以为复杂任务学习的解决方案的一般性之间取得有利的平衡。为了充分发挥机器人技术中深RL的潜力,必须面对现实世界的全部变化,包括物体外观的多样性,系统动力学,任务语义等。因此,我们专注于学习可以处理的控制器沿着多个维度的重要任务变化。

即使我们的方法在训练期间利用这些特权信息,它最终产生的策略仅依赖于手臂的视觉和本体感受信息,因此可以部署在真实硬件上。在真实机器人上执行策略表明,模拟和真实硬件之间仍然存在相当大的域差距。转移受视觉差异以及手臂动力学和环境物理特性的差异影响。当在真实机器人上运行模拟策略时,这会导致一定程度的性能下降。尽管如此,我们的实际实验已经证明,zero-shot sim2real传输可以通过RL训练的策略执行像素到联合速度控制而取得初步成功。

 

 

 

  • 5
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值