从示范中学习

Learning from Demonstration
Reinforcement Learning from Demonstration through Shaping, IJCAI2015, Brussel

此文章考虑了如果demon不是最优,或者cover不全面的情况下,如何利用demon来帮助RL训练。文章假设sparse reward也是已知的,那么要解决的就是如何利用demo来作为bias加速收敛。基本思想就是如果(s,a)出现在了demo里面,那么”Policy invariance under reward transformations: Theory and application to reward shaping”中的则有高的势能,否则是低势能。文章用multi-variate Guassian来衡量(s,a)对的相似度:如果两个(s,a)对中的action不一样,则相似度是0,否则利用多维高斯来计算s和s’的差距。一个(s,a)对的势能是它跟demo中的其他对的距离最大值。

实验跟HAT,一个利用demo来学习policy从而初始化Q函数的方法,相比较。HAT在domo数据很少的情况下并不能帮助RL收敛的更快,反而会影响收敛效果。相比起来,本文章的方法在domo数据非常少的时候效果都会很好。但是如果demo数据足够大,那么本文章的效果并不能超过HAT或者imitation learning,原因是本文章利用demo的方法是locally,对噪音比较敏感。

文章还建议可以利用k-d tree来查找(s,a)对的距离,并且可以对demo里面的数据去重。

Learning from Demonstrations for Shaping through Inverse Reinforcement Leanring, AAMAS2016, University
相比上面一篇利用demo库来计算势能reward方式,本篇利用了“Relative Entropy Inverse Reinforcement Learning“中的方法来根据demo得到线性的reward函数计算势能reward。并且提出了两种方式:一种是根据state作为输入得到的inverse reward来直接计算势能reward;另外一种是考虑到受时间以及action的影响,动态得根据另外的Q函数来更新势能reward。

实验结果相比HAT和上一篇SBS方法都有明显提高。在简单的任务maze上static的方法要好,在复杂的任务mario上,dynamic的方法更好。

Imitation Learning with Concurrent Actions in 3D Games, 2018, Sweden
本篇文章是关于如何利用expert数据来做imitation learning从而帮助RL学习,同时考虑了输出是multi-action的情况。文章解释传统的先用expert数据来pre-train policy或者value函数,再进行自我学习的方式效果并没有保证,反而因为数据量不够导致过拟合到expert数据,除非数据量够大。所以本篇文字从用另外一个方式利用expert数据:作为RL的一个regularize,即在训练RL的同时也用expert数据来监督训练RL网络。而如果value网络也用expert数据监督训练,会造成效果下降和不稳定,所以文章只用它来训练policy网络。同时为了防止过拟合,加入高斯噪声和dropout。并且此IL loss的权重是线性衰减的。

实验表明single-action相比multi-action探索的更慢,但是后面会超过,由于后者会有credit assignment问题。

Deep Q-Learning from Demonstrations, AAAI18,DeepMind
deepmind的一篇文章,结合了imitation learning跟DQN一起学习。这里直接把expert data放进他们的replay buffer里面,然后在开始的时候只用expert data来训练Q,后面再按照一定比例把expert data跟explored data一起训练。其中对于expert data,额外加入了一个监督的loss,即保证expert data的action的Q值最大,但同时加了个ground,保证未见到的其他action不会被propagate掉。但是这个方法由于还要用expert data来训练DQN,所以需要expert data的形式是(s,a,r,s’)而不单单是现有的(s,a)就可以了。另外还加入了n-step的Q loss可以让expert data利用率更高。

**Overcoming Exploration in Reinforcement Learning with Demonstrations
下载地址:**https://arxiv.org/pdf/1709.10089.pdf
根据DDPG算法把expert data加入到replay buffer里面。最主要的不同点就是监督loss换成了action距离的square loss,同时只有在expert action比actor预测出来的action Q值更高的时候加入。

Reinforcement Learning from Imperfect Demonstratins, PMLR2018, UC Berkeley
本篇文章相比“Deep Q-Learning from Demonstrations”利用了maximum entropy policy learning的思想来限制未出现在demo中的action的Q值从而让学习到的policy最大可能的跟demo相近

作者:Zichen_195d
链接:https://www.jianshu.com/p/76f51ea70625
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值