学习笔记:强化学习与最优控制(Chapter 0)

学习笔记:强化学习与最优控制(Chapter 0)


本章简单介绍一些强化学习中的概念,推荐先看 Chapter1了解一下强化学习的一些数学表达式子。

1. Model-based vs Model-free

  • 一个finite horizon动态规划问题是由以下几个参数定义的:状态 x k x_k xk,控制 u k u_k uk,扰动(disturbance) w k w_k wk及其分布,代价函数 g k ( x k , u k , w k ) g_k(x_k,u_k,w_k) gk(xk,uk,wk),状态转移函数 f k ( x k , u k , w k ) f_k(x_k,u_k,w_k) fk(xk,uk,wk),这些叫做问题的数学模型
  • model-based: f k , g k , p k ( w k ∣ x k , u k ) f_k,g_k,p_k(w_k|x_k,u_k) fk,gk,pk(wkxk,uk)是已知的,所以像lookahead里面出现的期望是通过代数计算得到的,而非通过Monte-Carlo模拟采样。
  • model-free:计算中所有的期望都是通过蒙特卡洛采样得到的,原因有两个:(1)扰动 w k w_k wk的分布的表达式 p k ( w k ∣ x k , u k ) p_k(w_k|x_k,u_k) pk(wkxk,uk)是未知的,但是当给定状态 x k x_k xk和控制 u k u_k uk时有模拟器可以从这个分布中去采样来获取接下来的状态 x k + 1 x_{k+1} xk+1(2)扰动的解析式是已知的,但是通过代数计算的开销太大

2. off-line vs on-line

  • 取决于代价函数的估计 J ~ k + 1 \tilde{J}_{k+1} J~k+1和对应的策略 { μ ~ 0 , … , μ ~ N − 1 } \{\tilde{\mu}_0,\dots,\tilde{\mu}_{N-1}\} {μ~0,,μ~N1}是在控制过程之前计算得到的还是当控制过程开始后计算得到的。
  • off-line方法:在计算 J k ~ \tilde{J_k} Jk~时,子问题的suboptimal解 J ~ k + 1 \tilde{J}_{k+1} J~k+1已经计算好并存储在内存中,当我们需要时直接通过查表的方式获取。
  • on-line方法:当已知当前状态 x k x_k xk后,计算相关的下一个状态 x k + 1 x_{k+1} xk+1的代价函数 J ~ k + 1 ( x k + 1 ) \tilde{J}_{k+1}(x_{k+1}) J~k+1(xk+1)。这种方法更适用于数据随时间变化的问题。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值