Policy Reuse

最新推荐文章于 2022-03-03 15:52:58 发布

m0_37693127

最新推荐文章于 2022-03-03 15:52:58 发布

阅读量261

点赞数 2

分类专栏： Reinforcement learning Q learning policy reuse

本文链接：https://blog.csdn.net/m0_37693127/article/details/71644966

版权

Reinforcement learning 同时被 3 个专栏收录

1 篇文章 0 订阅

订阅专栏

Q learning

1 篇文章 0 订阅

订阅专栏

policy reuse

1 篇文章 0 订阅

订阅专栏

很早就有写博客的想法，导师这周提出了写weekly report，于是决定从这周开始写博客啦~先对之前的内容进行回顾：

先读了policy reuse for reinforcement learning这篇论文，并reproduce了实验结果。这篇论文的实验看起来挺简单的，但实现的过程中也出现了一些问题，记录一下出现的问题及解决方案：

在learn from scratch的时候，epsilon greedy exploration策略不收敛

讲道理，当不explore，也就是1-greedy之后，累积平均回报W应该应该很快收敛，收敛的过程是一个backup的过程。但是后来发现当K，也就是iteration次数达到20000后（大概是），才开始收敛。收敛的过程这么慢会不会因为这个迷宫实验的定义可能不是MDP?收敛速度与什么有关？什么是收敛率（convergence rate）？Q learning，UCB还有policy reuse的 convergence rate都是多少？怎么求?

exploration strategy会影响收敛速度以及收敛的值。转移概率P会影响收敛速度吗？Q learning会收敛到optimal policy，学习一下他的证明还有MDP,Q learning, RL的区别。

这篇论文没有对policy reuse会收敛到optimal policy进行证明，只是用实验说明了learn from past policy比learn from scratch收敛速度要快，在这篇论文中收敛到optimal policy了吗？调整参数会收敛到optimal policy吗？

当时比较纠结这个问题是因为下一步要用到optimal policy，如果不收敛就不能得到optimal policy。其实收敛了也不一定是optimal policy，因为不同的exploration strategy会影响到最终收敛的值，但是他们都会收敛的。为什么1-greedy之后就会收敛呢？Q learning会收敛到optimal policy的前提条件是exploration rate一直不为0，要找到optimal policy必然要进行random explore。同样是 epsilon exploration，对epsilon值的设置不同也会影响收敛速度和收敛值。论文中和导师说的epsilon选取的方法不同，我现在记不清了，以后再比较。

之前自己看论文的时候，认为这篇论文主要解决的是exploration与exploitation之间的矛盾，所以和MAB问题类似。和导师交流之后，他认为这两个问题的类似之处在于选bandit和选past policy的方法，reuse past policy先要从一个past policy library里选出一个与target task最相近的source task，如何定量的描述similarity呢？论文中应该就是用past policy在target task上得到的平均W衡量的。因为W越大，越有可能被选到。还有一个问题，论文中提出的方法是select the past policy probabilistically ,导师认为应该选择确定的past policy。但是因为这篇论文用了softmax,所以W收敛之后，也就是确定性的了，都会选用greedy。

evaluation是什么？reuse past policy的过程中evaluate了吗？

先写到这里，下一篇博客会对以上标红的问题中暂时理解的进行解释。

一家之言，欢迎指正。（如果有人看的话）