Policy Reuse

很早就有写博客的想法,导师这周提出了写weekly report,于是决定从这周开始写博客啦~先对之前的内容进行回顾:

先读了policy reuse for reinforcement learning这篇论文,并reproduce了实验结果。这篇论文的实验看起来挺简单的,但实现的过程中也出现了一些问题,记录一下出现的问题及解决方案:

在learn from scratch的时候,epsilon greedy exploration策略不收敛

讲道理,当不explore,也就是1-greedy之后,累积平均回报W应该应该很快收敛,收敛的过程是一个backup的过程。但是后来发现当K,也就是iteration次数达到20000后(大概是),才开始收敛。收敛的过程这么慢会不会因为这个迷宫实验的定义可能不是MDP?收敛速度与什么有关?什么是收敛率(convergence rate)?Q learning,UCB还有policy reuse的 convergence rate都是多少?怎么求? 

exploration strategy会影响收敛速度以及收敛的值。转移概率P会影响收敛速度吗?Q learning会收敛到optimal policy,学习一下他的证明还有MDP,Q learning, RL的区别。

这篇论文没有对policy reuse会收敛到optimal policy进行证明,只是用实验说明了learn from past policy比learn from scratch收敛速度要快,在这篇论文中收敛到optimal policy了吗?调整参数会收敛到optimal policy吗?

当时比较纠结这个问题是因为下一步要用到optimal policy,如果不收敛就不能得到optimal policy。其实收敛了也不一定是optimal policy,因为不同的exploration strategy会影响到最终收敛的值,但是他们都会收敛的。为什么1-greedy之后就会收敛呢?Q learning会收敛到optimal policy的前提条件是exploration rate一直不为0,要找到optimal policy必然要进行random explore。同样是 epsilon exploration,对epsilon值的设置不同也会影响收敛速度和收敛值。论文中和导师说的epsilon选取的方法不同,我现在记不清了,以后再比较。

之前自己看论文的时候,认为这篇论文主要解决的是exploration与exploitation之间的矛盾,所以和MAB问题类似。和导师交流之后,他认为这两个问题的类似之处在于选bandit和选past policy的方法,reuse past policy先要从一个past policy library里选出一个与target task最相近的source task,如何定量的描述similarity呢?论文中应该就是用past policy在target task上得到的平均W衡量的。因为W越大,越有可能被选到。还有一个问题,论文中提出的方法是select the past policy probabilistically ,导师认为应该选择确定的past policy。但是因为这篇论文用了softmax,所以W收敛之后,也就是确定性的了,都会选用greedy。

evaluation是什么?reuse past policy的过程中evaluate了吗?

先写到这里,下一篇博客会对以上标红的问题中暂时理解的进行解释。

一家之言,欢迎指正。(如果有人看的话)

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值