RL-DP
文章平均质量分 95
hubin00sx
这个作者很懒,什么都没留下…
展开
-
[RL] 4 Dynamic Programming (2)
接上一篇博客[RL] 4 Dynamic Programming (1)。Policy Iteration 对于给定的policyπpolicy \,\,\pi,一旦我们通过vπv_\pi改进后得到π′\pi',我们就可以计算新的value functionv′πv_\pi',然后我们就可以进一步改进π′\pi'得到π′′\pi''。因此我们可以得到policies和value functions原创 2017-03-29 16:11:14 · 541 阅读 · 2 评论 -
[RL] 4 Dynamic Programming (1)
Introduction 在这里,动态规划(Dynamic Programming, DP)指的是一类算法,在MDP中,给定一个完美的environment的模型,它们可以计算相应的optimal policy。 关于MDP,详见之前的三篇博客:[RL] 3 Finite Markov Decision Processes (1)、[RL] 3 Finite Markov Decision P原创 2017-03-28 16:13:06 · 564 阅读 · 0 评论