将策略改进序列算法化,则分别得到策略迭代与值迭代算法。
策略迭代与值迭代
上篇16.5 策略改进图 16.11描述了通过策略的改进路径,即产生的两个序列:策略改进序列和对应的值评估序列。 将这两个序列算法化,则分别得到策略迭代与值迭代算法。
策略迭代算法【西瓜书图16.8】,它的循环体内分为三部分:
(i) 对策略进行估值(第3-10句),计算 V V V值,它本身也是迭代算法,也即【西瓜书图16.7】所示的策略评估算法。
(ii) 由
V
V
V值通过【西瓜书式(16.10)】易计算
Q
Q
Q值,再由
Q
Q
Q值使用策略的改进式(16.35)产生新策略(第11句),这是一个确定性的策略。
注:改进一轮后,
π
′
\pi'
π′已成确定性策略,那为什么下一轮还会改进呢?这是由于还有转移概率的随机性,导致确定性策略产生的轨线并不确定,故不能说确定性策略没有改进空间 。 另外,也可改造为非确定性策略,如
π
′
(
x
,
a
)
∝
max
a
∈
A
Q
π
(
x
,
a
)
46
\begin{align} \pi '(x,a)\varpropto \mathop{\max}\limits_{a\in A}Q^{\pi }(x,a) \tag{16.46}46 \end{align}
π′(x,a)∝a∈AmaxQπ(x,a)46(16.46)
当然,这种修改后,对应的第12句的判断也要作相应修改(略)。
(iii) 用新策略替换旧策略(第12-16句),当满足终止条件时退出循环,否则回到(i)。
由于策略的改进与值函数的改进是一致的,故可根据值迭代式【西瓜书式(16.18)】而优化策略,即得到值迭代算法【西瓜书图16.9】,它与【西瓜书图16.7】算法基本一致,但算法中没有出现策略 π \pi π(只是输出时,转换成输出策略 π \pi π),而是隐含在 max a ∈ A \mathop{\max}\limits_{a\in A} a∈Amax中(第3句),另外,以值 V V V的收敛程度来判断是否结束算法(第4句)。
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权