一、一些概念
MDP的两个规划问题:
- 预测,给定MDP和策略π,求出价值函数 vπ
- 控制,给定MDP,求出最佳价值函数 v∗ 和最佳策略 π∗
Policy Evaluation策略评估:
给定一个策略,从 v0 , v1 一直求到 vπ ,第k步求出的状态价值函数,通过Bellman期望方程可以求出k+1步的状态价值函数。这样一直迭代下去,最终状态价值函数会收敛,完成对策略π的评估。
Policy Iteration策略迭代:
- 1.评估策略,使用策略评估的方式更新价值函数;
- 2.改进策略,根据上一步的价值函数,用贪心原则更新策略;
- 3.迭代上两步,直到找到最优策略π,也就找到了最优价值函数v.
价值迭代:
- 按照bellman最优方程,每个循环计算(更新)价值函数;
- 没有显式的策略,贪心的计算方式在最优方程中,更为直接。
vk+1(s)=maxa∈A[Ras+γ∑s′∈SPass′vk(s′)]
值迭代的一些扩展,比如in-place(不存储旧的状态价值函数,状态的价值函数更新后立刻可以被用于其他状态价值函数的更新),使用Bellman误差(新价值与旧价值的差值)决定状态更新的优先级。
DP的时间开销比较大,而且无论价值迭代还是策略迭代都需要知道R和转移矩阵P,那么就需要对模型有比较深的了解,下一讲将会介绍一种开销更低而且是model-free的方法:采样。
参考
原文地址: http://cairohy.github.io/2017/08/30/deeplearning/%E3%80%8ADavid%20Silver%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%85%AC%E5%BC%80%E8%AF%BE%E3%80%8B-3%EF%BC%9ADP/