（《机器学习》完整版系列）第16章强化学习——16.6 策略迭代与值迭代算法

人工干智能

已于 2023-03-31 11:19:00 修改

阅读量164

点赞数

分类专栏：周志华【西瓜书】辅导《机器学习》文章标签：机器学习人工智能算法

于 2023-03-27 11:54:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129792461

版权

周志华【西瓜书】辅导同时被 2 个专栏收录

143 篇文章 26 订阅

订阅专栏

《机器学习》

143 篇文章 5 订阅

订阅专栏

将策略改进序列算法化，则分别得到策略迭代与值迭代算法。

策略迭代与值迭代

上篇16.5 策略改进图 16.11描述了通过策略的改进路径，即产生的两个序列：策略改进序列和对应的值评估序列。将这两个序列算法化，则分别得到策略迭代与值迭代算法。

策略迭代算法【西瓜书图16.8】，它的循环体内分为三部分：

(i) 对策略进行估值（第3-10句），计算 $V$ 值，它本身也是迭代算法，也即【西瓜书图16.7】所示的策略评估算法。

(ii) 由 $V$ 值通过【西瓜书式(16.10)】易计算 $Q$ 值，再由 $Q$ 值使用策略的改进式(16.35)产生新策略（第11句），这是一个确定性的策略。
注：改进一轮后， $\pi'$ 已成确定性策略，那为什么下一轮还会改进呢？这是由于还有转移概率的随机性，导致确定性策略产生的轨线并不确定，故不能说确定性策略没有改进空间。另外，也可改造为非确定性策略，如
$\begin{align} \pi '(x,a)\varpropto \mathop{\max}\limits_{a\in A}Q^{\pi }(x,a) \tag{16.46}46 \end{align}$
当然，这种修改后，对应的第12句的判断也要作相应修改（略）。

(iii) 用新策略替换旧策略（第12-16句），当满足终止条件时退出循环，否则回到(i)。

由于策略的改进与值函数的改进是一致的，故可根据值迭代式【西瓜书式(16.18)】而优化策略，即得到值迭代算法【西瓜书图16.9】，它与【西瓜书图16.7】算法基本一致，但算法中没有出现策略 $\pi$ （只是输出时，转换成输出策略 $\pi$ ），而是隐含在 $\mathop{\max}\limits_{a\in A}$ 中（第3句），另外，以值 $V$ 的收敛程度来判断是否结束算法（第4句）。

本文为原创，您可以：

点赞（支持博主）
收藏（待以后看）
转发（他考研或学习，正需要）
评论（或讨论）
引用（支持原创）
不侵权

上一篇：16.5 策略改进（单调递增有界序列必收敛）
下一篇：16.7 同策略蒙特卡罗强化学习

人工干智能

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
（《机器学习》完整版系列）第16章强化学习——16.6 策略迭代与值迭代算法

将策略改进序列算法化，则分别得到策略迭代与值迭代算法。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。