学习笔记：强化学习与最优控制（Chapter 0）

最新推荐文章于 2023-10-24 20:24:09 发布

gongchenooo

最新推荐文章于 2023-10-24 20:24:09 发布

阅读量800

点赞数

分类专栏：学习笔记：强化学习与最优控制文章标签：强化学习动态规划机器学习

本文链接：https://blog.csdn.net/gongchen_/article/details/118655824

版权

3 篇文章 8 订阅

订阅专栏

本章简单介绍一些强化学习中的概念，推荐先看 Chapter1了解一下强化学习的一些数学表达式子。

一个finite horizon动态规划问题是由以下几个参数定义的：状态 $x_k$ ，控制 $u_k$ ，扰动（disturbance） $w_k$ 及其分布，代价函数 $g_k(x_k,u_k,w_k)$ ，状态转移函数 $f_k(x_k,u_k,w_k)$ ，这些叫做问题的数学模型
model-based： $f_k,g_k,p_k(w_k|x_k,u_k)$ 是已知的，所以像lookahead里面出现的期望是通过代数计算得到的，而非通过Monte-Carlo模拟采样。
model-free：计算中所有的期望都是通过蒙特卡洛采样得到的，原因有两个：（1）扰动 $w_k$ 的分布的表达式 $p_k(w_k|x_k,u_k)$ 是未知的，但是当给定状态 $x_k$ 和控制 $u_k$ 时有模拟器可以从这个分布中去采样来获取接下来的状态 $x_{k+1}$ （2）扰动的解析式是已知的，但是通过代数计算的开销太大

取决于代价函数的估计 $\tilde{J}_{k+1}$ 和对应的策略 $\{\tilde{\mu}_0,\dots,\tilde{\mu}_{N-1}\}$ 是在控制过程之前计算得到的还是当控制过程开始后计算得到的。
off-line方法：在计算 $\tilde{J_k}$ 时，子问题的suboptimal解 $\tilde{J}_{k+1}$ 已经计算好并存储在内存中，当我们需要时直接通过查表的方式获取。
on-line方法：当已知当前状态 $x_k$ 后，计算相关的下一个状态 $x_{k+1}$ 的代价函数 $\tilde{J}_{k+1}(x_{k+1})$ 。这种方法更适用于数据随时间变化的问题。

关注