一. 策略迭代
(1)为V(s),
(s),设初值。
(2)策略评估,改变V(s)。
利用贝尔曼期望方程。
利用上式,依次遍历价值表,直至收敛。
(3)策略改进,改变![\pi(a|s)](https://latex.csdn.net/eq?%5Cpi%28a%7Cs%29)
在(2)中收敛之后,利用动作价值函数的定义式:
在每一个s处选使得最大的
构成
若原与新
不一致,则利用新
重新返回(2)中进行策略评估
二. 价值迭代(极端情况下的策略迭代,即策略评估只进行一次)
(1)给V(s),
(s),设初值。
(2)利用![q_{\pi}(s,a)=\sum_{s',r}p(s',r|s,a)(r+\gamma V_{\pi}(s'))](https://latex.csdn.net/eq?q_%7B%5Cpi%7D%28s%2Ca%29%3D%5Csum_%7Bs%27%2Cr%7Dp%28s%27%2Cr%7Cs%2Ca%29%28r+%5Cgamma%20V_%7B%5Cpi%7D%28s%27%29%29)
通过贝尔曼最优性方程