蒙特卡洛方法

  • 蒙特卡洛方法

在本章中,我们介绍了估计值函数的学习方法,并用此来寻找最优策略。不像前几章有对环境的完全的认识,蒙特卡洛方法只需要经验。总结来说,蒙特卡罗方法是从经验中学习值函数和策略的方法。蒙特卡洛方法能被用于两种方法:一是直接从从实际经验中学习,并不需要模型;二是能从模拟中学习,不需要概率分布。

蒙特卡洛方法是基于平均样本报酬的解决强化学习的方法。本书中蒙特卡洛方法被用于情节式的任务。蒙特卡洛方法是基于情节的,意思是以情节为单位修改值函数和策略的。在这里我们特指它为基于平均完整报酬的方法(不同于下一章基于部分回报的方法)。

蒙特卡洛方法为每一个状态-行为对进行平均取样方法和第二章介绍的多臂赌博机有些相似。主要的不同是该蒙特卡洛方法有许多不同的状态,其中每个状态又像是不同的赌博机问题,而且这些问题是相互关联的,是动态问题。

为了解决这种动态问题,我们采用了在第四章介绍动态规划时的一般策略迭代。只不过,我们通过样本的返回计算的值函数。动态规划中的预测问题,策略改进,控制和GPI解决都能拓展应用于蒙特卡洛方法。

5.1 蒙特卡洛预测

我们从用蒙特卡洛方法求在给定策略下估计状态值函数开始讲。一个显而易见的方法是用该状态下回报的平均值来近似值函数。当样例非常多时,值函数就非常准确了。这个方法是所有蒙特卡洛方法的基础。

每次访问到s都是一次访问。有两种方法,初次访问蒙特卡洛方法每次访问蒙特卡洛方法。初次访问蒙特卡洛方法是初次访问s的回报的平均值,而每次访问是所有访问到的回报的平均值。初次访问蒙特卡洛方法用的最广,每次访问蒙特卡洛方法可以自动地扩展应用到模糊函数和合理轨迹,这在后面章节还会介绍。下面是初次访问蒙特卡洛方法的程序图。

 

当样例数非常多时,初次访问和每次访问都能收敛到给定策略的值函数。

例子5.1-黑杰克

著名的黑杰克问题是看手中牌谁的大,但不能超过21。庄家的策略是固定的:牌是17或者大于17就停止摸牌,否则就摸牌,如果大于21则庄家输,除非玩家也大于21。黑杰克问题经常被形式为情节有限的MDP。

Reward:每一局21点问题都是一幕状态。赢、输、平局分别对应报酬+1、-1、0。

States(200个):包括三方面,一是玩家当前牌的和,二是庄家亮的牌,三是玩家有没有可用ace。

Action:摸牌或者停止摸牌。

Policy:如果总数是20或者21就停止摸牌,否则就摸牌。

没有折扣因子。

通过模拟若干游戏来平均每个状态的值。用这种方法,我们得到了下图的估计值函数。

 

尽管我们知道所研究问题的环境,但是不能准确地给出下一步具体的分布概率,所以动态规划方法没法用。但是用蒙特卡洛方法可以解决这种问题。

 

右图为蒙特卡罗方法的方向传播图,蒙特卡洛方法和动态规划方法的两个不同:一、蒙特卡罗方法的反向传播图只有一个完整的到结束状态的轨迹,而DP图有所有可能的转换。二、DP反向传播图中只有一步的转换,二蒙特卡洛方法有一个完整样本的转换。最后一点蒙特卡罗方法估计值函数是不依赖于其他状态的,这和DP是不一样的,换句话说就是蒙特卡洛方法不自举。

蒙特卡洛方法相对于DP的第三个优势是从可以从任意一个感兴趣的状态开始计算,而不用管其他不相关的状态。前两个优势是可以从实际经验和模拟经验学习。

5.2 行为值函数的蒙特卡洛估计

  对于有完整概率分布的问题来说,有了状态值函数就可以根据概率分布来选择最佳行为。而对于用蒙特卡洛方法解决的无模型的问题来说,计算行为值函数就十分有必要。因为这样才能制定最优策略。

估计qπ(s,a)就是,估计在给定策略π下,在状态s下采取动作a时期望的返回值。

存在的唯一的问题是许多状态-行为对可能不会被访问到。这样就会不能根据经验来改进策略,也就是问题所在。一个解决方法就是使每一个状态-行为对都有一个非零的可能性被选择,这就是初始探索的假定。这种方法有时是有用的,当不能用在实际与环境交互时。

5.3 蒙特卡洛控制

  

蒙特卡洛控制利用了GPI的思想。利用给定策略形成行为值函数的估计,再利用它贪婪的改进策略。

其中策略改进是可以用策略改进定理证明的。

在这里我们为用蒙特卡罗估计一定收敛设定了两个假设:一是初始探索的设定。二是策略评定能在无限情节时完成。我们在这里考虑把第二个假设移除。移除无限情节假设的方法主要有两种:一是使误差足够小,让估计值足够接近真实值。二是我们充分利用GPI思想,不是完成完整的策略评定后再进行策略改进,而是在每个策略估计时进行对Q的改进。一种带有初始探索的蒙特卡洛算法如下:

只有策略和值函数都是最佳时,才能达到稳定状态。收敛但最佳策略看起来是肯定的,因为随着时间增多,变化会越来越小,但是还没有被正式证明。

5.4 没有初始探索的蒙特卡洛方法

如何避免不太可能的初始探索呢?唯一的方法就是要确保所有的行为都能被选择。一种是在线方法:最佳策略和产生数据的策略是同一个,另一种是离线方法:最佳策略和产生数据的策略(行为策略)不一样。

在线方法是利用e-soft方法:π(a|s)> 0 对所有a。随着时间的积累,越来越像最佳策略逼近。在这里我们使用 e-greedy方法。

使用e-greedy方法可以不用探索初始的方法,因为所有的action都可能被选择。而且改进的策略π’可以证明比原来的策略好(或者一样好)。

5.5 基于重要性采样的离策略估计

所有的学习控制方法都存在一个困境:它们搜索去找最佳策略的行为值函数,但是它们在采取行动时不能是完全的最佳策略为。在线方法提出了一个折中方案:它们不是用最佳策略而是接近最佳策略的估计来学习行为值函数。一个更直观的方法是用两个策略:一个target policy,用来寻找最优策略;一个behavior policy,用来产生数据。被称为离线策略学习。

在线学习和离线学习都是十分重要的方法。在线学习比较简单,离线学习相对复杂,因为多了些概念。并且离策略方法有更大的方差并且收敛的速度更慢。但是离策略方法更强大也更通用。在线方法可以看做是离线搜索的一个特例,只是target policy 和behavior policy相同。

本节估计问题中target policy和behavior policy都是固定不变的。为了从基于b策略的情节中估计策略π的值,要满足 b(a|s)>0 当π(a|s)>0时。这就是覆盖设定。

几乎所有离策略方法都用重要性采样。重要性采样比时轨迹发生在target policy和behavior policy的可能性的比。比如轨迹 At, St+1,At+1,…,ST  可能性为:

重要性采样比为:

从公式可知重要性采样只依赖于策略和轨迹,与具体MDP的转化概率无关。

所以target policy的值函数为:

在计算Vπ的期望时有两种方法,一是一般重要性采样:

另一种是加权重要性采样:

两张方法的不同表现在biases和variance。在实际中加权估计有极小的方差并且优先被使用。每累计返回值有无限大的方差时,一般重要性采样将会有无限大的方差,因此不满足收敛属性。

5.6 递增表示

蒙特卡洛方法也能像第二章增量处理reward一样,对return进行增量处理。在线蒙特卡罗方法和第二章介绍的一样。对于离策略方法,一般重要性采样也和第二章介绍的一样。而加权重要性采样和以前的有点不同。

5.7 离策略蒙特卡洛控制

下图展示了蒙特卡洛控制。其中behavior policy是e-soft策略,target policy 相对于Q的贪婪策略。离策略使用的是加权重要性采样。利用了递增的表示。

这种方法的一个潜在的问题是可能只从情节尾部学习。当非贪婪行动很多时而且在长情节问题中,学习是十分缓慢的。如果问题很严重,那么解决它的最好办法可能是时分差异学习。

5.8 有折扣感知的重要性采样*

我们之前介绍的离策略方法中只是把返回看成为一个整体,并没有考虑它们的像折扣的报酬和的内部结构。我们在这里简要介绍最前沿的思路,并用这种方法来极大地降低离策略估计值的方差。

这种方法的核心思想是把折扣看成是部分结束的度。

平滑部分返回值:

完整的返回可以写成:

因为Gt:h 只累加到h,所以我们只需要重要性采样比计算到h

一般重要性采样为:

加权重要性采样为:

当 折扣因子为1时没有效果。

5.9 基于每步决策的重要性采样*

在离策略重要性采样中还有另一种方法来考虑到报酬和的结构,一种即使折扣因子为一,也可能减小方差的方法。

考虑到计算离策略估计的一个子项:

其中的一个子项:

注意到该项的值只和第一项和reward有关,与后面的比值无关,而且其他的比值期望为1

所以子项可以写作:

所以Pt:T-1可以写成:

因此,基于一般重要性采样的公式为:

5.10 总结

相对于DP方法,蒙特卡罗方法带来的四大优势是:一、能够从与环境交互中学习,没有环境模型的要求。二、可以从模拟实验中学习。三、蒙特卡罗方法可以只关心全部集合的一个子集合。四、如果马尔卡夫属性不符合,更少地受影响。因为他们不需要从其他值的模拟中学习。也就是不自举。

蒙特卡洛方法同样利用GPI思想。它通过策略估计的替代(利用样本经验)来估计每个状态的值,没有使用环境的概率分布。因为没有环境的模型,蒙特卡洛方法比较倾向于对动作值的估计来形成最优策略。

初始探索的离策略方法能用于模拟的情节中,而不适合与环境实际交互。在线方法中,智能体总是一边探索一边形成最优策略。而离策略方法从behavior policy产生的数据中学习形成最优策略。重要性采样又分为一般重要性采样和加权重要性采样。

一般重要性采样和加权重要性采样的区别:一般重要性采样产生无偏估计,但是有很大,可能无限大的方差,而加权重要性采样有有限的方差,而且在实际上一般倾向于它。尽管概念的简单,用离策略进行估计和控制的问题既然没有解决并且是正在研究的课题。

蒙特卡洛的两个重要特点是:不需要环境模型;不自举。

阅读更多
换一批

没有更多推荐了,返回首页