【David Silver强化学习公开课】-3：DP

Omni-Space

于 2018-01-16 14:24:35 发布

阅读量471

点赞数

分类专栏： Reinforcement Learning David Silver 强化学习公开课文章标签： Reinforcement Learni David Silver DP MDP

Reinforcement Learning 同时被 2 个专栏收录

11 篇文章

订阅专栏

David Silver 强化学习公开课

7 篇文章

订阅专栏

一、一些概念

MDP的两个规划问题：

预测，给定MDP和策略π，求出价值函数 vπ
控制，给定MDP，求出最佳价值函数 v∗ 和最佳策略 π∗

Policy Evaluation策略评估：

给定一个策略，从 v0 , v1 一直求到 vπ ,第k步求出的状态价值函数，通过Bellman期望方程可以求出k+1步的状态价值函数。这样一直迭代下去，最终状态价值函数会收敛，完成对策略π的评估。

Policy Iteration策略迭代：

1.评估策略，使用策略评估的方式更新价值函数；
2.改进策略，根据上一步的价值函数，用贪心原则更新策略；
3.迭代上两步，直到找到最优策略π，也就找到了最优价值函数v.

价值迭代：

按照bellman最优方程，每个循环计算（更新）价值函数；
没有显式的策略，贪心的计算方式在最优方程中，更为直接。

v k + 1 (s) = m a x a \in A [R a s + γ \sum s' \in S P a s s' v k (s')]

值迭代的一些扩展，比如in-place（不存储旧的状态价值函数，状态的价值函数更新后立刻可以被用于其他状态价值函数的更新），使用Bellman误差（新价值与旧价值的差值）决定状态更新的优先级。

DP的时间开销比较大，而且无论价值迭代还是策略迭代都需要知道R和转移矩阵P，那么就需要对模型有比较深的了解，下一讲将会介绍一种开销更低而且是model-free的方法：采样。

参考

https://zhuanlan.zhihu.com/p/21378532

原文地址： http://cairohy.github.io/2017/08/30/deeplearning/%E3%80%8ADavid%20Silver%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%85%AC%E5%BC%80%E8%AF%BE%E3%80%8B-3%EF%BC%9ADP/

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。