目录
Dynamic Programming
- 思路:
利用Bellman方程迭代,每次迭代过程中,用所有的状态s的第k次迭代得到的vk(s’)来计算第k+1次的vk+1(s)的值。经过这种方法的反复迭代,最终可以收敛到最优的v∗(s)。
Bellman方程:
- 优势: 更新无需等待最后的结果。
- 缺点: 环境的完整知识;维数灾难。
Monte Carlo Methods
- 思路:
通过经验(状态、动作和奖励的样本序列)求解最优策略。比如在初始状态s,遵循策略π,最终获得了总回报R,这就是一个样本。如果我们有许多这样的样本,就可以估计在状态s下,遵循策略π的期望回报。 - 优势: 蒙特卡罗方法不需要对环境的完整知识(区别于DP)。仅仅需要经验(状态、动作和奖励的样本序列)就可以求解最优策略,这些经验可以在线获得或者根据某种模拟机制获得。
- 缺点: