[RL] 4 Dynamic Programming (1)

Introduction

  在这里,动态规划(Dynamic Programming, DP)指的是一类算法,在MDP中,给定一个完美的environment的模型,它们可以计算相应的optimal policy。

关于MDP,详见之前的三篇博客:[RL] 3 Finite Markov Decision Processes (1)[RL] 3 Finite Markov Decision Processes (2)[RL] 3 Finite Markov Decision Processes (3)
因为DP假设一个完美的environment模型,而且它们的计算费用很高,因此DP在增强学习中实用性有限,但在理论上仍然很重要。

Assumptions

  我们假设environment是一个finite MDP,即它的state、action和reward的集合 S,A(s),R 是有限的,它的one-step dynamics(一步变换)由一组概率分布给定 p(s,rs,a),sS,aA(s),rR,sS+

DP的思想可以应用到连续的state和action空间,但只有在特殊例子下才有解。
我们可以将连续的state和action空间离散化,然后使用finite-state DP来获得连续问题的近似解。

Key Idea

  DP的主要思想,是利用value function来组织策略的搜索。
  optimal value function:

v(s)=maxaE[Rt+1+γv(St+1)St=s,At=a]=maxas,rp(s,rs,a)[r+γv(s)](1)

q(s,a)=E[Rt+1+γmaxaq(St+1,a)St=s,At=a]=s,rp(s,rs,a)[r+γmaxaq(s,a)](2)

forallsS,aA(s),sS+

  我们将会看到,通过将Bellman equations转化为能够不断优化value function近似值的更新规则,我们将得到我们的DP算法。

Policy Evaluation

  首先我们考虑,对任意的 policyπ ,如何计算state-value function vπ 。这在DP中称为policy evaluation(策略估计),我们也称作prediction problem(预测问题)。根据MDP中的推导:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值