【David Silver强化学习公开课】-3:DP

一、一些概念

MDP的两个规划问题:

  • 预测,给定MDP和策略π,求出价值函数 vπ
  • 控制,给定MDP,求出最佳价值函数 v v∗和最佳策略 π π∗

Policy Evaluation策略评估:

给定一个策略,从 v0 v0, v1 v1一直求到 vπ ,第k步求出的状态价值函数,通过Bellman期望方程可以求出k+1步的状态价值函数。这样一直迭代下去,最终状态价值函数会收敛,完成对策略π的评估。

Policy Iteration策略迭代:

  • 1.评估策略,使用策略评估的方式更新价值函数;
  • 2.改进策略,根据上一步的价值函数,用贪心原则更新策略;
  • 3.迭代上两步,直到找到最优策略π,也就找到了最优价值函数v.

价值迭代:

  • 按照bellman最优方程,每个循环计算(更新)价值函数;
  • 没有显式的策略,贪心的计算方式在最优方程中,更为直接。
vk+1(s)=maxaA[Ras+γsSPassvk(s)] vk+1(s)=maxa∈A[Rsa+γ∑s′∈SPss′avk(s′)]

值迭代的一些扩展,比如in-place(不存储旧的状态价值函数,状态的价值函数更新后立刻可以被用于其他状态价值函数的更新),使用Bellman误差(新价值与旧价值的差值)决定状态更新的优先级。

DP的时间开销比较大,而且无论价值迭代还是策略迭代都需要知道R和转移矩阵P,那么就需要对模型有比较深的了解,下一讲将会介绍一种开销更低而且是model-free的方法:采样。

参考
原文地址: http://cairohy.github.io/2017/08/30/deeplearning/%E3%80%8ADavid%20Silver%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%85%AC%E5%BC%80%E8%AF%BE%E3%80%8B-3%EF%BC%9ADP/
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值