强化学习与最优控制学习记录-1

最新推荐文章于 2023-08-07 16:45:13 发布

C__hannah

最新推荐文章于 2023-08-07 16:45:13 发布

阅读量513

点赞数

分类专栏：学习笔记文章标签：算法

本文链接：https://blog.csdn.net/C__hannah/article/details/122380193

版权

学习笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

学习记录

资料：《强化学习与最优控制》——[美]Dimitri P. Bertsekas

学习记录主要是为了加强理解并方便日后查阅，督促自己学习。因为教材是全英文，且笔者为初学者，如果有理解错误或专业名词错误欢迎指正。

1.2 随机动态规划（Stochastic Dynamic Programming）

随机最优控制问题对比于确定性最优控制问题多了一个随机扰动量 $\omega _{k}$ ，扰动量符合概率分布 $P_{k}(\cdot |x_{k},u_{k})$ 。即，系统的形式为

$x_{k+1}=f_{k}(x_{k},u_{k},\omega _{k}),\qquad k=0,...,N-1$

两种优化控制问题最大的区别是在随机问题中，不是通过找出一个有确定值的控制序列 $\left \{ u_{0},...,u_{N-1} \right \}$ 来实现目标，而是通过一种策略（policies，也被称为闭环控制率或反馈策略）来实现，表示为：

$\pi ={\mu _{0},...,\mu_{N-1}}$

其中的 $\mu_{k}$ 可使得 $x_{k}$ 映射为 $u_{k}$ ，即 $u_{k}=\mu_{k}(x_{k})$ 。

两个问题的另一个重要区别是随机最优控制问题在计算中还会涉及到期望值，而这往往需要使用Monte Carlo simulation。给定了polices与系统初值 $x_{0}$ 后，之后状态的 $x_{k}$ 和扰动 $\omega_{k}$ 的分布由系统方程定义

$x_{k+1}=f_{k}(x_{k},\mu_{k}(x_{k}),\omega_{k}),\qquad k=0,1,...,N-1$

对于给定的cost functions $g_{k}$ 和初值 $x_{0}$ ，在控制率 $\pi$ 的控制下期望的cost表达式为

$J_{\pi}(x_{0})=E\left \{ g_{N}(x_{N})+\sum_{k=0}^{N-1}g_{k}(x_{k},\mu_{k}(x_{k}),\omega_{k}) \right \}$

其中的期望值操作 $E\left \{ \cdot \right \}$ 是针对所有随机变量 $x_{k}$ 和 $\omega_{k}$ 的。则使得上式值最小的控制策略就是最优的控制策略，记为 $\pi^*$ 。即满足

$J_{\pi^*}(x_{0})=\min_{\pi\epsilon \prod }J_{\pi}(x_{0})$

$J^*(x_{0})=\min_{\pi\epsilon \prod }J_{\pi}(x_{0})$ 也被称为 optimal cost function/optimal value function 。

随机有限时域问题中的DP算法

定义

$J^*_{N}(x_{N})=g_{N}(x_{N})$

且对于所有的 $k=0,...,N-1$ ，有

$J^*_{k}(x_{k})=\min_{u_{k}\epsilon U_{k}(x_{k})}E \left \{ g_{k}(x_{k},u_{k},\omega_{k})+J^*_{k+1}(f_{k}(x_{k},u_{k},\omega_{k}))\right \}\qquad(1)$

如果 $u^*_{k}=\mu^*_{k}(x_{k})$ 使得（1）式等式右边对于所有的 $x_{k}$ 和 $\omega_{k}$ 都为最小，则此时的 $\pi^*=\left\{\mu^*_{0},...,\mu^*_{N-1}\right\}$ 是最优的。