学习笔记：强化学习与最优控制（Chapter 1）

最新推荐文章于 2023-08-07 16:45:13 发布

gongchenooo

最新推荐文章于 2023-08-07 16:45:13 发布

阅读量1.2k

点赞数 1

分类专栏：学习笔记：强化学习与最优控制文章标签：强化学习动态规划

本文链接：https://blog.csdn.net/gongchen_/article/details/118642757

版权

学习笔记：强化学习与最优控制专栏收录该内容

3 篇文章 8 订阅

订阅专栏

学习笔记：强化学习与最优控制（Chapter 1）

本博客参考课本Reinforcement Learning and Optimal Control，由Dimitri P. Bertsekas书写。
主要目的是按照自己的思路梳理一下课本，加上自己的一些理解，记录学习过程。

1.1 Deterministic Programming

1.1.1 Deterministic Problems

finite horizon problems: 包含有限的决策序列
deterministic dynamic programming problem:
一个决定性的动态规划问题包括具有如下形式的离散动态规划系统 $x_{k+1}=f_k(x_k,u_k)$ ， $k$ 为时间序号即时刻， $x_k$ 为系统状态， $u_k$ 为从集合 $U_k(x_k)$ 得到的控制或者决策变量， $f_k$ 为系统状态从 $k$ 时刻变化到 $k + 1$ 时刻的转换机制。
给定初始状态 $x_0$ ，对于控制序列 $\{u_0,u_1\dots,u_{N-1}\}$ ，其总代价函数为
$\tag{1}J(x_0;u_0\dots,u_{N-1})=g_N(x_N)+\sum\limits_{k=0}^{N-1}g_k(x_k,u_k)$ ，其中 $g_N(x_N)$ 为终止代价， $g_k(x_k,u_k)$ 为时刻 $k$ 所花费的代价。
这个问题的优化目标为：给定初始状态 $x_0$ ，找到一个控制序列 $\{u_0,\dots,u_{N-1}\}$ 使得系统的总代价函数最小，即最小化公式 (1):
$J^*(x_0)=\min\limits_{u_k\in U_k(x_k),k=0,\dots,N-1}J(x_0;u_0,\dots,u_{N-1})$
当状态空间和控制空间都是离散的，并且具有有限个元素，那么deterministic dynamic programming问题可以转化为最短路径问题：构造一张图，图中每个结点表示一个状态 $x_k$ ，图中每条边表示一个(状态、控制)对 $x_k,u_k)$ ，长度为 $g_k(x_k,u_k)$ ，为了处理最终状态，我们人为地添加一个终止节点 $t$ ，对于最后 $N$ 阶段的每个结点 $x_N$ ，我们将其与 $t$ 相连，边长为 $g_N(x_N)$
Generally, deterministic optimal control problems with continuous state and state and control spaces can ve solved using nonlinear programming, such as gradient, Newton’s method

1.1.2 The Dynamic Algorithm

Principle of Optimality: the tail of an optimal sequence is optimal for the tail subproblem
Let $u_0^*,\dots,u_{N-1}^*$ be an optimal control sequence, which together with $x_0$ determines the state sequence $x_1^*,\dots,x_N^*$ . Consider the subproblem whereby we start at $x_k^*$ at time $k$ and want to minimize cost from time $k$ to $N$ :
$\min g_k(x_k^*,u_k)+\sum\limits_{m=k+1}^{N-1}g_m(x_m,u_m)+g_N(x_N)$
The truncated optimal control sequence $\{u_k^*,\dots,u_{N-1}^*\}$ is optimal for this subproblem.
Proof: If the truncated control sequence $\{u_k^*,\dots,u_{N-1}^*\}$ is not optimal, then we are able to reduce the cost by switching to an optimal sequence for the subproblem once we reach $x_k^*$
作用：最优代价函数能够以从后往前的方法计算，先计算包括最后一个stage的tail subproblem的最优代价函数，在计算包含最后两个stage的tail subproblem的最优代价函数，直到计算完整个问题的最优代价函数
动态规划：动态规划就是基于principle of optimality的思想：先解决时间长度一定的所有tail subproblem，再用这些子问题的解去解决时间长度更长的tail subproblem
用动态规划解决deterministic finite horizon问题：
临界状态：对于所有的 $x_N$ ，有 $J_N^*(x_N)=g_N(x_N)$
动态规划：对于所有的 $x_k,k=0,1\dots,N-1$ ，让
$J_k^*(x_k)=\min\limits_{u_k\in U_k(x_k)}[g_k(x_k,u_k)+J_{k+1}^*(f_k(x_k,u_k))]$
这要求我们计算第 $j$ 个阶段的最优代价时，需要先计算出 $k + 1$ 阶段所有状态 $x_{k+1}$ 的最优代价函数
我们称 $J_k^*(x_k)$ 为 $k$ 时刻 $x_k$ 状态的optimal cost-to-go，称 $J_k^*$ 为时刻 $k$ 的optimal cost-to-go function。以上方法相当于计算出了每一个时刻每一个状态的最优代价，那么当我们在状态 $x_k$ 时，我们要采取控制来让以后的代价最小，即：
$u_k^*\in\arg\min_{u_k\in U_k(x_k^*)}[g_k(x_k^*,u_k)+J_{k+1}^*(f_k(x_k^*,u_k))]$
实际情况中，求出每一个时刻每一个状态的optimal cost-to-go是一件很费时间的事，因为状态空间 $x_k$ 可能非常大。我们可以用以下的方法来解决
价值空间估计：用估计值 $\tilde{J}_k$ 来代替optimal cost-to-go function $J_k^*$ ，产生suboptimal的控制序列 $\{\tilde{u}_0,\dots,\tilde{u}_{N-1}\}$ 即 $\tilde{u}_k\in\arg\min\limits_{u_k\in U_k(\tilde{x}_k)}[g_k(\tilde{x}_k,u_k)+\tilde{J}_{k+1}(f_k(\tilde{x}_k,u_k))]\tag{2}$
Q-factor：式子(2)的右边即为 $x_k,u_k)$ 的Q-factor： $\tilde{Q}_k(x_k,u_k)=g_k(\tilde{x}_k,u_k)+\tilde{J}_{k+1}(f_k(\tilde{x}_k,u_k))$ ，这提示了我们可以用Q-factor来代替代价函数来进行计算。直接来看的话，用Q-factor求解和用式子（2）求解没什么两样，唯一的区别在于当我们使用on-line方法的时候（往后会说到），Q-factor要求我们保存每一个状态-控制对 $x_k,u_k)$ 的Q值，而式子（2）只需我们保存每个状态的optimal cost-to-go $J^*$

1.2 Stochastic Dynamic Programming

与determinstic版本的区别：

系统的状态转移不仅依赖于状态 $x_k$ 和控制 $u_k$ ，还依赖于一个基于状态 $x_k$ 和控制 $u_k$ 的随机变量 $w_k\sim P_k(\cdot|x_k,u_k)$ ，即： $x_{k+1}=f_k(x_k,u_k,w_k),k=0,1,\dots,N-1$
我们优化的不再是控制(control)序列 $u_0,\dots,u_{N-1}$ ，而是策略(policy) $\pi=\{\mu_0,\dots,\mu_{N-1}\}$ ， $\mu_k$ 将状态 $x_k$ 映射到控制空间，即 $u_k=\mu_k(x_k)$
代价函数变为对随机变量 $w_k$ 和状态 $x_k$ 的期望值： $J_{\pi}(x_0)=\mathbb{E}\{g_N(x_N)+\sum\limits_{k=0}^{N-1}g_k(x_k,\mu_k(x_k),w_k)\}$ ，最优策略 $\pi^*$ 即为使得代价函数最小的策略 $J^*(x_0)=J_{\pi^*}(x_0)=\min\limits_{\pi}J_\pi(x_0)$

最优策略求解

off-line方法（动态规划）：
临界状态：对于所有的 $x_N$ ，有 $J_N^*(x_N)=g_N(x_N)$
动态规划：对于所有的 $x_k,k=0,1\dots,N-1$ ，让
$J_k^*(x_k)=\min\limits_{u_k\in U_k(x_k)}\mathbb{E}[g_k(x_k,u_k,w_k)+J_{k+1}^*(f_k(x_k,u_k,w_k))]\tag{3}$
如果策略得到的控制序列等于等式（3）得到的最优控制序列即 $\mu_k(x_k)=u_k^*=(x_k)$ ，那么策略 $\pi=\{\mu_0,\dots,\mu_{N-1}\}$ 为最优策略，我们可以线下求解后将其保存，需要用时直接查表调用找到最优控制
on-line方法（one-step lookahead minimization）：
通常，这种方法并不用于真正求解动态规划即 $J^*$ ，而是用来估计动态规划的解即 $\tilde{J}_k$ :
$\mu_k(x_k)\in\arg\min\limits_{u_k\in U_k(x_k)}\mathbb{E}[g_k(x_k,u_k,w_k)+\tilde{J}_{k+1}(f_k(x_k,u_k,w_k))] \tag{4}$
乍一看，这个式子和动态规划的求解式子（3）没有什么区别，这是因为one-step lookahead只向前精确探索一步，即尝试对于状态 $x_k$ 来说所有的控制 $u_k$ ，当状态转移到 $f_k(x_k,u_k,w_k)$ 后，不再精确计算这个状态的optimal cost-to-go $J^*$ ，而是用代价估计函数 $\tilde{J}$ 来估计这个状态的代价函数和。当我们采用multi-step即向前探索多步时，式子（4）会与动态规划求解式子有明显差别。
多说两句，原文在次并没有解释采用multi-step lookahead方式的好处，我的理解是multi-step不用我们求出精确的optimal cost-to-go $J^*$ ，它只需要我们用其估计值 $\tilde{J}$ 。这个估计值可以不准，因为我们可以采用增加look-head步数的方法降低对 $\tilde{J}$ 估计准确性的需求。

1.3 Variations and Simplifications

1.3.1 变化

怎样将一个最优控制问题转化为可以用动态规划求解的形式：

找到每个时刻的控制 $u_k$
找到每个时刻的状态 $x_k$ ：状态 $x_k$ 应该包含对于选择最优控制 $u_k$ 有帮助的所有信息

问题变式：问题涉及的状态为partial or imperfect state information
我们收集到的不是直接的状态 $x_k$ ，而是状态的衡量 $I_k$ （比如温度和温度计示数），此时更好的表示方法是用条件概率分布来表示状态，即 $P_k(x_k|I_k)$ ，称为信念（belief state）。

1.3.2 经典问题

往后的许多强化学习问题都可以归约到如下的几类基本问题

确定性最短路径问题： $a_{ij}$ 表示从 $i$ 到 $j$ 的路径长， $t$ 为人造的终止节点
解决方案：
临界状态： $J_{N-1}^*(i)=a_{it}$
动态规划： $\begin{aligned}J_k^*(i)&=\min\limits_{All\ arcs\ (i,j)}[a_{ij}+J_{k+1}^*(j)]\end{aligned}$
$J_k^*(i)$ 表示用 $N - k$ 步从结点 $i$ 到终止节点 $t$ 的最小代价
带有终止状态的问题：终止状态 $t$ 为无代价无转移的状态即 $g_k(t,u_k,w_k)=0,f_k(t,u_k,w_k)=t,\forall u_k,w_k$ ，此时问题可以理解
为如何用最多 $N$ 步以最小的代价转移到终止状态，可以直接用原始的动态规划式子求解。
Forecast：在时刻 $k$ 可以得到对下一个时刻的扰动 $w_{k+1}$ 分布的预测，其分布从一个分布集合 $\{P_1,\dots,P_m\}$ 中得到，如果我们在 $k$ 时刻的forecast为 $i$ ，即 $\xi_k=i$ ，那么下一个时刻的扰动 $w_{k+1}$ 具有分布 $P_i$ 。因为每一个时刻的forecast是对下一个时刻有用的，所以我们将每个时刻的 $\xi_k$ 保留到下一个时刻，用 $y_{k+1}$ 来表示，即 $y_{k+1}=\xi_k$ 。
解决方案：将 $k$ 时刻得到的forecast与下一个状态 $x_{k+1}$ 相结合得到新的状态 $\tilde{x}_{k+1}=(x_{k+1},y_{k+1})=(f_k(x_k,u_k,w_k),\xi_k),w_{k+1}=(w_k,\xi_k)$
初始状态： $J_N^*(x_N,y_N)=g_N(x_N)$
动态规划： $J_k^*(x_k,y_k)=\min\limits_{u_k\in U_k(x_k)}\mathbb{E}_{w_k}[g_k(x_k,u_k,w_k)\\+\sum\limits_{i=1}^mp_iJ_{k+1}^*(f_k(x_k,u_k,w_k),i)|y_k]$
带有不可控状态的问题
许多问题中，状态有许多组成部分，他们是不受控制决策的影响的，即每个时刻的状态由两部分组成 $x_k,y_k)$ ， $x_k$ 是收到决策 $u_k$ 影响的， $y_k$ 是不受我们任何控制的影响的。它符合条件分布 $y_k\sim P_k(y_k|x_k)$ ，其与扰动的区别在于在 $k$ 时刻做决策之前，我们可以观测到 $y_k$ ，但是扰动 $w_k$ 是在做出控制 $u_k$ 之后才由分布 $p(w_k|x_k,u_k)$ 决定的。
状态转移方程为： $x_{k+1}=f_k(x_k,y_k,u_k,w_k)$ ，并且扰动的分布 $P_k(w_k|x_k,y_k,u_k)$ 是给定的。
我们的动态规划方程只能基于可控的状态，所以我们要对不可控的部分 $y_k$ 取期望来消除它，即optimal cost-to-go变为 $\hat{J}_k(x_k)=\mathbb{E}_{y_k}[J_k^*(x_k,y_k)|x_k]$
动态规划： $\hat{J}_k(x_k)=\mathbb{E}_{y_k}\{\min\limits_{u_k\in U_k(x_k)}\mathbb{E}_{w_k}[g_k(x_k,y_k,u_k,w_k)+\hat{J}_{k+1}(f_k(x_k,y_k,u_k,w_k))|x_k,y_k,u_k]|x_k\}$
即对于我们考虑每一个可控状态 $x_k$ ，其最优代价等于考虑所有不可控状态 $y_k$ 后的期望，对于给定状态 $x_k,y_k)$ 其最优代价的计算和之前一样。
部分状态信息和信念状态
状态的一些组分是不可直接观测到的，所以对他们的观测需要用到仪器，这带来一定的误差。我们把这个不准确的状态称为不完美状态信息
解决方案：用信念状态 $b_k$ 来替代不准确的状态 $x_k$ ，信念 $b_k$ 实际上是 $x_k$ 的一个分布，即当给定观测状态后，我们相信系统状态为每一个 $x_k$ 的概率
对于信念 $b_k$ 我们可以采用相似的动态规划方案，更为详细的介绍会在后面的笔记中
具有不可知参数的系统：
系统的转移方程是不可知的，比如汽车的行驶控制系统，用 $x_k$ 表示 $k$ 时刻的速度，则下一时刻速度为 $x_{k+1}=x_k+bu_k$ ，其中 $b$ 是变化的，无法准确建模的，因为它可能取决于某个随时间变化的条件。
解决方案：将不可知参数作为不可观测的状态部分引入到状态表示中即 $y_k=\theta_k$ ，这样状态变为上述的不完美状态。状态转移方程变为 $x_{k+1}=f_k(x_k,\theta_k,u_k,w_k)$ ，为了简化，我们假设不可知参数 $\theta_k$ 不随时间变化，即 $\theta_k=\theta$ 。这样 $\tilde{x}_k=(x_k,y_k)$ 即为新的状态。
因为新的状态有一部分是不可观测的，我们采用adaptive control的方法将控制过程分为两部分：参数估计部分（对不可知参数进行估计）、控制部分（根据参数的估计做出控制决策）。

gongchenooo

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
学习笔记：强化学习与最优控制（Chapter 1）

学习笔记：强化学习与最优控制（Chapter 1）1.1 Deterministic Programming1.1.1 Deterministic Problems本博客参考课本Reinforcement Learning and Optimal Control，由Dimitri P. Bertsekas书写1.1 Deterministic Programming1.1.1 Deterministic Problemsfinite horizon problems: 包含有限的决策序列dete
复制链接

扫一扫