学习笔记:强化学习与最优控制(Chapter 0)
本章简单介绍一些强化学习中的概念,推荐先看 Chapter1了解一下强化学习的一些数学表达式子。
1. Model-based vs Model-free
- 一个finite horizon动态规划问题是由以下几个参数定义的:状态 x k x_k xk,控制 u k u_k uk,扰动(disturbance) w k w_k wk及其分布,代价函数 g k ( x k , u k , w k ) g_k(x_k,u_k,w_k) gk(xk,uk,wk),状态转移函数 f k ( x k , u k , w k ) f_k(x_k,u_k,w_k) fk(xk,uk,wk),这些叫做问题的数学模型
- model-based: f k , g k , p k ( w k ∣ x k , u k ) f_k,g_k,p_k(w_k|x_k,u_k) fk,gk,pk(wk∣xk,uk)是已知的,所以像lookahead里面出现的期望是通过代数计算得到的,而非通过Monte-Carlo模拟采样。
- model-free:计算中所有的期望都是通过蒙特卡洛采样得到的,原因有两个:(1)扰动 w k w_k wk的分布的表达式 p k ( w k ∣ x k , u k ) p_k(w_k|x_k,u_k) pk(wk∣xk,uk)是未知的,但是当给定状态 x k x_k xk和控制 u k u_k uk时有模拟器可以从这个分布中去采样来获取接下来的状态 x k + 1 x_{k+1} xk+1(2)扰动的解析式是已知的,但是通过代数计算的开销太大
2. off-line vs on-line
- 取决于代价函数的估计 J ~ k + 1 \tilde{J}_{k+1} J~k+1和对应的策略 { μ ~ 0 , … , μ ~ N − 1 } \{\tilde{\mu}_0,\dots,\tilde{\mu}_{N-1}\} {μ~0,…,μ~N−1}是在控制过程之前计算得到的还是当控制过程开始后计算得到的。
- off-line方法:在计算 J k ~ \tilde{J_k} Jk~时,子问题的suboptimal解 J ~ k + 1 \tilde{J}_{k+1} J~k+1已经计算好并存储在内存中,当我们需要时直接通过查表的方式获取。
- on-line方法:当已知当前状态 x k x_k xk后,计算相关的下一个状态 x k + 1 x_{k+1} xk+1的代价函数 J ~ k + 1 ( x k + 1 ) \tilde{J}_{k+1}(x_{k+1}) J~k+1(xk+1)。这种方法更适用于数据随时间变化的问题。