Chapter 4:动态规划
经典DP算法在强化学习中的用途有限,因为这些算法假设一个完美的模型,并且计算费用很高,但经典DP算法在理论上仍然很重要。本书剩下的所有方法都可以被视为尝试实现与DP相同的效果,只需要更少的计算并且没有假设完美的环境模型。
DP和强化学习的关键思想是使用value function来搜索好的策略。本章要介绍如何使用DP来计算第3章中定义的value function(式3.19或式3.20)
4.1 Policy Evaluation(预测)
policy evaluation: 针对任意一个策略 π \pi π,计算state-value function v π v_\pi vπ,也叫作prediction problem。
第三章已经介绍过了state-value function:
用式(4.4)的Bellman方程作为更新规则可以逐步逼近:
iterative policy evaluation:
算法伪码:(不太懂)
终止条件: max s ∈ S ∣ v k + 1 ( s ) − v k ( s ) ∣ \max_{s\in\mathcal S} |v_{k+1}(s)-v_k(s)| maxs∈S∣vk+1(s)−vk(s)∣足够小
4.2 Policy Improvement(改进)
计算policy 的state-value function是为了找到更好的策略。
假设对于任意确定的policy π \pi