【强化学习】 Planning By Dynamic Programming

参考资料

周博磊 Lecture 2: https://github.com/zhoubolei/introRL/blob/master/lecture2.pdf
David Silver Planning By DP: https://www.davidsilver.uk/wp-content/uploads/2020/03/DP.pdf

MDP中的决策问题

有两类:Prediction 和 Control
在这里插入图片描述

Policy Evaluation

利用Bellman方程不断迭代,直至 v π ( s ) v_\pi(s) vπ(s)收敛。

在这里插入图片描述
在这里插入图片描述demo: https://cs.stanford.edu/people/karpathy/reinforcejs/gridworld_dp.html
例子中 γ = 0.9 \gamma=0.9 γ=0.9

V π ( s ) = ∑ a π ( s , a ) ∑ s ′ P s s ′ a [ R s s ′ a + γ V π ( s ′ ) ] V^\pi(s) = \sum_{a} \pi(s,a) \sum_{s'} \mathcal{P}_{ss'}^{a} \left[ \mathcal{R}_{ss'}^{a} + \gamma V^\pi(s') \right] Vπ(s)=aπ(s,a)sPssa[Rssa+γVπ(s)]
在这里插入图片描述

Policy Improvement

贪婪的action能够improve policy。
在这里插入图片描述
在这里插入图片描述

Policy Iteration

Policy Evaluation 和 Policy Improvement的重复迭代。
在这里插入图片描述
在这里插入图片描述

Value Iteration

每次都选最优的value function。
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值