浅谈强化学习三之蒙特卡洛方法

无模型的强化学习方法主要包括蒙特卡罗方法和时间差分法(TD)。

类比于上次讲到的策略迭代和值迭代的方法,无模型的强化学习方法基本思想也是如此,通过对当前策略的评估而不断去改善策略,使得值函数趋向最优。无模型强化学习中,状态转移概率矩阵P_{ss}^{a}是未知的,因而我们必须采用其他方法评估当前策略。

状态值函数和行为值函数的计算实际上是计算返回值(奖赏)的期望,上节我们没有提及状态值函数和行为值函数的区别与联系,这里做一个简单的赘述,直接说概念想必不容易理解,举个例子,比如说我们要去一个城市A,途经城市B时,状态值函数就是我们距离城市A的距离,而行为值函数就是我们所消耗的能量,时间等等。动态规划的方法是利用模型计算期望,并对策略寻优致使返回值(奖赏)最大。在无模型的情况下,我们无法对当前策略作出一个准确的评估,只能通过用估算来代替,而蒙特卡罗方法就是利用经验平均代替随机变量的期望。

这里提及了经验和平均,经验就是我们在当前策略下去进行不断尝试,得到了很多个结果,对这些结果进行评估,并求取平均就是我们所得到的经验平均。另外,蒙特卡罗方法包含第一次访问蒙特卡罗方法和每次访问蒙特卡罗方法,其涉及了每次访问状态s时如何计算其值函数的方法。可以这么说,我们能否取得正确的值函数取决于我们的经验,如何获取充足的经验是无模型强化学习的核心所在。

在动态规划过程中,为了保证值函数的收敛性,算法会逐个扫描状态空间中的状态。无模型的方法充分评估值函数的前提是每个状态都能被随机访问到,因此,动态规划容易陷入局部最优,而无模型的方法容易达到全局最优。

蒙特卡洛方法之一就是探索性初始化,即每个状态都有一定的几率作为初始状态。蒙特卡罗方法利用经验平均估计策略值函数,估计出值函数后,对每个状态s,它都通过最大化值函数来进行策略改善。在这个算法中,输入是状态空间S和动作空间,以及需要自定义的实验体生成方法,经过不断迭代生成大量实验体,求得其经验平均,对其策略进行评估,然后再改善策略。

探索性初始化在每次迭代的过程中,初始状态都是随机分配的,保证了迭代过程中每个状态都能被选中,其中有一个隐性假设,所有的动作都可以被无限频繁的选中。

若行动策略和评估改善的是一个策略,称为同策略(on-policy),不同则称为异策略(off-policy)。异策略可以保证充分的探索性。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值