学习笔记：强化学习与最优控制（Chapter 2）

最新推荐文章于 2023-12-02 09:33:29 发布

gongchenooo

最新推荐文章于 2023-12-02 09:33:29 发布

阅读量925

点赞数

分类专栏：学习笔记：强化学习与最优控制文章标签：强化学习动态规划

本文链接：https://blog.csdn.net/gongchen_/article/details/118655287

版权

学习笔记：强化学习与最优控制专栏收录该内容

3 篇文章 8 订阅

订阅专栏

Approximation in Value Space

学习笔记：强化学习与最优控制（Chapter 2）

Approximation in Value Space

如我们之前所说，最优控制问题虽然可以用动态规划来解决，但是要求所有状态

x_k

的optimal cost-to-go需要花费很长的时间，所以有着各种各样的approximation方法。

1. 综述

在动态规划求解最优控制的过程中，有两种估计方法：

Approximation in Value Space：
又可以分为三种方法：

直接估计cost function即 $\tilde{J}_k$ 来得到策略：我们用 $\tilde{J}_k$ 来表示对optimal cost function $J_k^*$ 的估计，通过优化下述式子可以得到suboptimal的策略 $\tilde{\mu}_k$
$\tilde{\mu}_k(x_k)\in\arg\min\limits_{u_k\in U_k(x_k)}\mathbb{E}[g_k(x_k,u_k,w_k)+\tilde{J}_{k+1}(f_k(x_k,u_k,w_k))]\tag{1}$
通过估计Q-factor来得到策略：
式子（1）的右半部分可以看做是取一个状态-控制对 $x_k,u_k)$ 使得对应的Q-factor最小，因此我们可以估计每个状态-控制对的Q-factor:
$\tilde{Q}_k(x_k,u_k)=\mathbb{E}[g_k(x_k,u_k,w_k)+\tilde{J}_{k+1}(f_k,x_k,u_k,w_k)]$
虽然式子中看似仍然包括对 $J$ 的估计，和第一种方法没什么区别，但是真实情况下有估计方法可以直接估计 $Q$ ，省掉了对 $\tilde{J}$ 的计算过程
Multi-step lookahead：之前得到策略的方法（如式子（1））相当于是one-step lookahead，即探索一步之内的所有可能即 $x_k,u_k)$ ，剩下的步子代价和用 $\tilde{J}$ 来估计。我们也可以使用multi-step lookahead即探索多步的所有可能 $(x_k,u_k,x_{k+1},u_{k+1},\dots)$ ，由此得到一个当前的最优控制序列 $u_k,u_{k+1},\dots$ ，但我们只取 $u_k$ 当做此时的控制，下一步的控制要再使用一次minimization过程得到。例如two-step lookahead，式子（1）中的策略的得到方法变为：
$\tag{2}\tilde{\mu}_k(x_k)\in\arg\min\limits_{u_k\in U_k(x_k)}\mathbb{E}\{g_k(x_k,u_k,w_k)+\min\limits_{u_{k+1}\in U_{k+1}(x_{k+1})}\mathbb{E}[g_{k+1}(x_{k+1},u_{k+1}.w_{k+1})+\tilde{J}_{k+2}(f_{k+1}(x_{k+1},u_{k+1},w_{k+1}))]\}$ 。实际上，一个 $l$ -step lookahead算法等价于一个 $l - 1$ 步的动态规划问题+终止代价为 $\tilde{J}_{k+l}$

Approximation in Policy Space：在一定范围的策略中挑选最优策略，通常这个策略是由某个或某类参数决定的，即 $\mu_k(x_k,r_k)$ ， $r_k$ 表示这个参数（例如神经网络）。
使用参数直接得到policy的好处在于不用进行lookahead minimization操作，节省了很多时间

2. 基于Value Space的估计方法

2.1 用估计值 $\tilde{J}_k$ 来代替 $\tilde{J}_k$

代价函数的估计 $\tilde{J}_k$ 有四种方法

2.1.1 problem approximation（问题的分解和简化）：

通过强制分解来简化问题结构，适用于当问题的系统是由许多子系统、许多代价函数、许多约束条件耦合在一起的情况。
当一个问题包含多个子系统时，可以一次只优化一个子系统。例如， $k$ 时刻系统的控制有 $n$ 个组成成分，即 $u_k=\{u_k^1,\dots,u_k^n\}$ ，其中 $u_k^i$ 代表第 $i$ 个子系统的控制。当我们到达状态 $x_k$ 时，我们可以先优化第一个子系统的控制序列 $u_k^1,\dots,u_{N-1}^1$ ，保持其他子系统的控制序列不变。再考虑优化子二个子系统的控制序列 $u_k^2,\dots,u_{N-1}^2$ 。比较类似于坐标轴下降法。
简化问题的概率结构：
certainty equivalent controller方法替换随机变量为某些固定的值，例如将随机干扰 $w_k$ 替换为 $\tilde{w}_k(x_k,u_k)=\mathbb{E}[w_k|x_k,u_k]$ ，即求解
$\min\limits_{u_k,x_{i+1}=f_i(x_i,u_i,\tilde{w}_i(x_i,u_i))}[g_N(x_N)+\sum\limits_{i=k}^{N-1}g_i(x_i,u_i,\tilde{w}_i(x_i,u_i))]$
但是上述方法仍然需要求解一个 $N$ 步deterministic动态规划问题的最优解，我们可以参考one-step lookahead的方法，只探索一步所有可能的控制，用启发式算法走接下来的所有步并以其代价 $H_{k+1}(x_{k+1})$ 作为optimal cost-to-go的估计值，即:
$\min\limits_{u_k}[g_k(x_k,u_k,\tilde{w}_k(x_k,u_k))+H_{k+1}(x_{k+1})]$

2.1.2 on-line approximate optimization（on-line的估计方法）：

在估计真实的代价函数 $J^*(x)$ 时（如式子（2）），利用suboptimal或者启发式的算法来代替计算中的结束代价（terminal cost）即 $\tilde{J}_{k+2}$ 而非先求解子问题来得到这个结束代价。用来代替的方法有：rollout算法、model predictive control

Rollout：rollout算法最本质的目标是为了提升策略，即从一个基础策略（base policy）出发，使用multi-step lookahead minimization的方法并以启发式的结果作为optimal cost-to-go的估计值，来提升基础策略，以 $l$ -step lookahead为例：
$\min\limits_{u_k,\mu_{k+1},\dots,\mu_{k+l-1}}\mathbb{E}[g_k(x_k,u_k,w_k)+\sum\limits_{m=k+1}^{k+l-1}g_m(x_m,\mu_m(x_m),w_m)+\tilde{J}_{k+l}(x_{k+l})]$ 。
对于前 $l$ 步我们探索每一种可能，之后的步数带来的代价用 $\tilde{J}_{k+l}$ 来表示，它可以表示为用base policy跑有限 $m$ 步的代价加上terminal cost $\tilde{J}_{k+l+m}$ 。一个好的base policy很重要，但是实验证明即便我们从一个很差的基础策略出发，我们也能够用rollout方法得到很好的表现结果，尤其是当multi-step lookahead用很大的 $l$ 时。
和策略迭代的关系：rollout实际上就是一次policy iteration，而policy iteration本质上是无穷多次rollout。
性能评估：首先我们介绍两个名词，sequentially consistency和sequential improvement。一个策略是sequentially consistent如果，基于这个策略，从状态 $x_k$ 开始产生的状态序列为 $x_k,x_{k+1},\dots,x_N$ 并且从下一个状态 $x_{k+1}$ 产生的状态序列也为 $x_{k+1},\dots,x_N$ 。一个基础策略是sequentially improving的，如果对于任意状态 $x_k$ ，我们有 $\min\limits_{u_k\in U_k(x_k)}[g_k(x_k,u_k)+H_{k+1}(f_k(x_k,u_k))]\le H_k(x_k)$ ，其中 $H_k(x_k)$ 为用基础策略得到的代价和。
我们有如下结论：
从一个sequentially consistent的基础策略出发，用rollout算法得到的策略的代价和不会比原策略高；从一个sequentially improving的策略出发，通过rollout得到的策略也不会比原策略差
Fortified Rollout Algorithm：从状态 $x_0$ 开始，每当到达一个状态 $x_k$ ，保存轨迹 $\bar{P}_k=\{x_0,u_0,\dots,u_{k-1},x_k\}$ ，称为长久轨迹。同时我们在之前也保存了不确定的轨迹 $\bar{T}_k=\{x_k,\bar{u_k},\bar{x}_{k+1},\bar{u}_{k+1},\dots,\bar{u}_{N-1},\bar{x}_N\}$ 和对应的代价 $C(\bar{T}_k)=g_k(x_k,\bar{u}_k)+g_{k+1}(\bar{x}_{k+1},\bar{u}_{k+1})+\dots+g_{N-1}(\bar{x}_{N-1},\bar{u}_{N-1})+g_N(\bar{x}_N)$ 。初始状态 $\bar{T}_0$ 是由基础启发式策略从 $x_0$ 产生的轨迹。接下来我们进行rollout算法去最小化 $g_k(x_k,u_k)+H_{k+1}(x_{k+1})$ ，由此得到轨迹 $\tilde{T}_k=\{x_k,\tilde{u}_k,\tilde{x}_{k+1},\tilde{u}_{k+1},\dots,\tilde{u}_{N-1},\tilde{x}_N\}$ 。如果 $C(\bar{T}_k)>C(\tilde{T}_k)$ ，那么我们使 $\bar{T}_k=\{\tilde{x}_{k+1},\tilde{u}_{k+1},\dots,\tilde{u}_{N-1},\tilde{x}_N\}$ 。相当于我们保证保存的不确定轨迹永远选择的是代价更小的轨迹。
Monte Carlo Tree Search(MCTS)：在前面的Rollout中，如果我们采用的是 $l$ -step lookahead思想，则在前 $l$ 步的每一步都需要探索所有的可能 $u_k$ ，这会带来很大的开销，而且有些控制 $u_k$ 明显要劣于其他控制，不值得我们去探索，而有些 $u_k$ 很可靠，值得我们探索的更完全。MCTS的思想是利用中间计算结果来选出更为可靠的策略 $u_k$ 从而将功夫花在更有效的地方。

2.1.3 parametric cost approximation（通过参数估计代价）：

代价函数的估计 $\tilde{J}_k$ 是通过参数 $r_k$ 得到的，这允许我们不求解子问题的最优解（ $\tilde{J}_{k+1}$ ）即可得到 $\tilde{J}_k$

2.1.4 Aggregation（聚合）：

从状态空间中挑选具有代表性的状态，其他状态可以采用interpolate的方法用代表性状态来表示

2.2 one-step lookahead

假设我们已知问题的数学模型，即model-based。

为了简化计算，我们消除下面式子中的期望
$\tilde{\mu}_k(x_k)\in\arg\min\limits_{u_k\in U_k(x_k)}\mathbb{E}[g_k(x_k,u_k,w_k)+\tilde{J}_{k+1}(f_k(x_k,u_k,w_k))]$
消除方法为certainty equivalence，即选取有代表性的 $\tilde{w}_k$ 将问题从stachastic变为deterministic：
$\tilde{\mu}_k(x_k)\in\arg\min\limits_{u_k\in U_k(x_k)}[g_k(x_k,u_k,\tilde{w}_k)+\tilde{J}_{k+1}(f_k(x_k,u_k,\tilde{w}_k))]$
控制空间 $U_k(x_k)$ 非常大，我们可以采用并行化计算（parallel cumputation）的方法来加快计算速度

2.3 基于Q-factor的估计方法

假设我们未知问题的数学模型，即model-free，但是

存在计算机模拟器，当给定状态 $x_k$ 和控制 $u_k$ 时，模拟器可以从分布中采样下一个状态 $x_{k+1}$ 和对应的代价 $g$
子问题的代价函数的估计 $\tilde{J}_{k+1}$ 是已经计算好的，计算方法在以后会说明
计算步骤如下所示

用模拟器去收集大量的数据 $(x_k^s,u_k^s,x_{k+1}^s,g_k^s),s=1,\dots,q$ 和对应的Q-factor，即 $\beta_k^s=g_k^s+\tilde{J}_{k+1}(x_{k+1}^s)$
为了减少计算量，我们引入参数 $r_k$ 来辅助估计Q-factor，即希望通过 $\tilde{Q}_k(x_k,u_k,r_k)$ 直接计算得到 $x_k,u_k)$ 的Q-factor，参数的计算方法为： $\bar{r_k}\in\arg\min_{r_k}\sum\limits_{s=1}^q[\tilde{Q}_k(x_k^s,u_k^s,r_k)-\beta_k^s]^2$
找到策略 $\tilde{\mu}_k(x_k)\in\arg\min\limits_{u_k\in U_k(x_k)}\tilde{Q}_k(x_k,u_k,\bar{r}_k)$
此方法涉及了两种估计方法，一是计算 $\tilde{J}_k$ ，二是计算 $\tilde{Q}_k$ ，会在以后说明。

2.4 multi-step lookahead

$l$ -step lookahead算法等价于：在状态 $x_k$ ，我们解一个 $l$ 步的动态规划问题，这个问题以 $x_k$ 为起始状态， $\tilde{J}_{k+l}$ 为终止代价函数，不同是只采用得到的第一步控制作为当下的决策，当转变为下一状态 $x_{k+1}$ 后重复上述步骤。公式化表达为：
$\min\limits_{x_k,\mu_{k+1},\dots,\mu_{k+l-1}}\mathbb{E}[g_k(x_k,u_k,w_k)+\sum\limits_{m=k+1}^{k+l-1}g_m(x_m,\mu_m(x_m),w_m)+\tilde{J}_{k+l}(x_{k+l})]$

计算 $\tilde{J}_{k+l}(x_{k+l})$ 的方法（rolling horizon approach）：用足够大数量的lookahead step $l$ ，让 $\tilde{J}_{k+l}(x_{k+l})=0$ 。随着往前仔细探索的步长 $l$ 越大，我们对一个好的估计 $\tilde{J}_{k+l}$ 的需求就越低，lookahead策略的表现就越好

2.5 怎样的估计方法才是有效的？

最初的想法肯定是估计的代价函数 $\tilde{J}_k$ 和最优代价函数 $J^*_k$ 越接近越好，但是它存在的一个问题是：当二者对于任意的状态 $x_k$ 都存在相同的常数差距时，通过 $\tilde{J}_k$ 得到的policy也是最优的
这提示我们可以用一个更好的条件：对于所有的状态 $x_k$ ， $\tilde{J}_k$ 和 $J_k^*$ 的相对值越接近越好即： $\tilde{J}_k(x_k)-\tilde{J}_k(x_k')\approx J_k^*(x_k)-J_k^*(x_k')$ ，但是在 $l$ -step lookahead方法中，它忽略了前 $l$ 步的代价差异（二者的结果相同）
一个更为准确的方法是：Q-factor的估计误差 $Q_k(x_k,u)-\tilde{Q}_k(x_k,u)$ 随 $u$ 的变化是逐渐的（斜率小），换句话来说， $Q_k(x_k,u)$ 和 $\tilde{Q}_k(x_k,u)$ 随 $u$ 的变化曲线趋势是接近的。

3. 基于Policy Space的估计方法

总体思路是在决策函数 $\tilde{\mu}_k$ 中引入参数 $r_k$ 即用 $\tilde{\mu}_k(x_k,r_k)$ 表示控制。训练过程类似于监督学习，先产生大量地好的状态-控制样本 $(x_k^s,u_k^s),s=1,\dots,q$ （由人类专家或者专业软件产生），再求解最小回归问题：
$\min\limits_{r_k}\sum\limits_{s=1}^q\parallel u_k^s-\tilde{\mu}_k(x_k^s,r_k)\parallel^2$

gongchenooo

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
学习笔记：强化学习与最优控制（Chapter 2）

Approximation in Value Space学习笔记：强化学习与最优控制（Chapter 2）Approximation in Value Space2.1 approximation method如我们之前所说，最优控制问题虽然可以用动态规划来解决，但是要求所有状态xkx_kxk的optimal cost-to-go需要花费很长的时间，所以有着各种各样的approximation方法。2.1 approximation method在动态规划求解最优控制的过程中，有两种估计方法：
复制链接

扫一扫