(《机器学习》完整版系列)第16章 强化学习——16.6 策略迭代与值迭代算法

将策略改进序列算法化,则分别得到策略迭代与值迭代算法。

策略迭代与值迭代

上篇16.5 策略改进图 16.11描述了通过策略的改进路径,即产生的两个序列:策略改进序列和对应的值评估序列。 将这两个序列算法化,则分别得到策略迭代与值迭代算法。

策略迭代算法【西瓜书图16.8】,它的循环体内分为三部分:

(i) 对策略进行估值(第3-10句),计算 V V V值,它本身也是迭代算法,也即【西瓜书图16.7】所示的策略评估算法。

(ii) 由 V V V值通过【西瓜书式(16.10)】易计算 Q Q Q值,再由 Q Q Q值使用策略的改进式(16.35)产生新策略(第11句),这是一个确定性的策略。
注:改进一轮后, π ′ \pi' π已成确定性策略,那为什么下一轮还会改进呢?这是由于还有转移概率的随机性,导致确定性策略产生的轨线并不确定,故不能说确定性策略没有改进空间 。 另外,也可改造为非确定性策略,如
π ′ ( x , a ) ∝ max ⁡ a ∈ A Q π ( x , a ) 46 \begin{align} \pi '(x,a)\varpropto \mathop{\max}\limits_{a\in A}Q^{\pi }(x,a) \tag{16.46}46 \end{align} π(x,a)aAmaxQπ(x,a)46(16.46)
当然,这种修改后,对应的第12句的判断也要作相应修改(略)。

(iii) 用新策略替换旧策略(第12-16句),当满足终止条件时退出循环,否则回到(i)。

由于策略的改进与值函数的改进是一致的,故可根据值迭代式【西瓜书式(16.18)】而优化策略,即得到值迭代算法【西瓜书图16.9】,它与【西瓜书图16.7】算法基本一致,但算法中没有出现策略 π \pi π(只是输出时,转换成输出策略 π \pi π),而是隐含在 max ⁡ a ∈ A \mathop{\max}\limits_{a\in A} aAmax中(第3句),另外,以值 V V V的收敛程度来判断是否结束算法(第4句)。

本文为原创,您可以:

  • 点赞(支持博主)
  • 收藏(待以后看)
  • 转发(他考研或学习,正需要)
  • 评论(或讨论)
  • 引用(支持原创)
  • 不侵权

上一篇:16.5 策略改进(单调递增有界序列必收敛)
下一篇:16.7 同策略蒙特卡罗强化学习

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值