Model Predictive Control

最適当承诺

已于 2022-06-27 18:58:05 修改

阅读量526

点赞数

分类专栏：强化学习论文笔记文章标签：人工智能深度学习

于 2022-03-28 21:52:12 首次发布

本文链接：https://blog.csdn.net/upr_rom/article/details/123804681

版权

强化学习论文笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

模型预测控制（model predictive contol, MPC）是在有环境模型的情况下为了找到能够实现最大奖励的动作轨迹而进行的控制优化问题。

模型描述

我们已经知道了环境的模型： $s_{t+1}=f(s_t,a_t)$ ，
我们已知初始状态 $s_0$
我们知道不同状态与动作下的奖励 $r(s_t,a_t,s_{t+1})$
goal : 想要求得能够到达目标状态 $s_f$ 的动作轨迹 $A={a_0,\dots,a_N}$

问题分析

我们想要找到动作轨迹，也就是要找到策略 $\pi(a_t|s_t)$ ，从而实现：
$argmax_\pi \ R=E_\pi[\sum_{i=0}^{N}r(s_i,a_i)]=r(s_0,\pi(s_0))+r(f(s_0,a_0),a_1)+...$
上式实际上可以对 $\pi$ 进行求导，然后求得最大值。但是实际上因为我们求得的 $f(s_t,a_t,a_{t+1})$ 存在偏差，因此上式实际上和实际值存在较大的偏差（误差积累）。
为此，模型预测控制提供了一种求解思路。

MPC主要思想

对于无限步的状态预测很难（因为误差积累，一定步数后会脱离实际），改为求解 $H$ (Horizon)步内的最大奖励。
不采用梯度方式求解最大值，而是采用采样探索的方式寻找可行解。（因为是采用探索的方式，而我们的问题都是NPC问题，那么如何进行有效的探索成为了一个重要的问题）

MPC方法

random shooting

我们独立随机选择 $N$ 个动作序列 ${A_0,\dots,A_N}$ ，每个动作序列包含 $A_i=\{a_0^{i},\dots,a_{H-1}^i\}$ 。每个动作序列 $A_i$ 中的动作也都是随机选择的。
获取每一个动作序列的 $R$ : 进行 $a_k^i$ 动作之后，我们可以根据环境模型得到下一个状态 $s_{k+1}^i=f(s_k^i,a_k^i)$ ，此时知道奖励 $r^i_k=r(s_k^i,a_k^i,s_{k+1}^i)$ ；然后进行下一个动作 $a_{k+1}^i$ ，知道动作序列都完成。得到每一个动作序列的 $R^i$ 。
选出 $A^*=arg\ max_A \ R$
然后执行第一步 $a^*_0$ （此时的动作是在真实执行的）
得到下一个状态之后，我们再重复以上的过程。

选择的过程比较的简单，但是对于高维度的动作空间来说，随机选择很难得到较好的解。

CEM( Iterative Random-shooting with refinement)

在第一个迭代步内随机选择[采用 $\mu_t=0,\Sigma_t= 固定值$ 的 $a_t \sim N (\mu_t,\Sigma_t)$ ]，得到N个动作序列。
从中选出前 $J$ 个奖励最多的动作序列 $A_{elites}$
然后更新 $\mu_t = \alpha*mean(A_{elites})+(1-\alpha)\mu_t$ ， $\Sigma_{t+1}=\alpha*var(A_{elites})+(1-\alpha)*\Sigma_t$ [ $H$ 步内的 $\mu.\Sigma$ 都不同]
然后重复上述迭代 $M$ 次
将最后一次的 $mean(A_{elites})$ 的第一步作为当前的动作。
得到下一步状态之后，重复上述的过程。
CEM因为会在奖励较多的动作空间内进行探索，所以效果会比random shooting 要好。

Filtering and Reward-weighted Reinfinement

均值更新的方式： $\mu_{t+1}=\frac{\sum_{k=0}^N(e^{\gamma R_k}a_t^k)}{\sum_{j=0}^N e^{\gamma R_j}}$
$H$ 步内的每一步的方差更新：
$u_t^i \sim N(0,\Sigma), t \in \{ 0,\dots,H-1\}, i \in \{0,\dots,N-1 \}$
$n_t^i = \beta u_t^i +(1-\beta)n_{t-1}^i$
$a_{t+1}^i=\mu_t^i + n_t^i$

MPC存在的问题

因为我们只考虑 $H$ 步以内的最大奖励，而不考虑 $H$ 步以后的，因此我们的解不是针对全局最优的解，而是针对一定时间内最有的解。
采用采样探索的方式，因此所求的解很可能不是最优解（即使是只考虑 $H$ 步，也不是最优解）
采样探索每次求得结果之后，不会将求得的结果转化为经验，用于其他步的探索；因此不存在学习的过程，对于数据的利用较少，几乎只利用了环境模型和奖励函数。

最適当承诺

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Model Predictive Control

模型预测控制（model predictive contol, MPC）是在有环境模型的情况下为了找到能够实现最小成本（最大价值）的轨迹而进行的控制优化问题。模型描述我们已经知道了环境的模型： st+1=f(st,at)s_{t+1}=f(s_t,a_t)st+1=f(st,at)，我们已知初始状态s0s_0s0我们知道不同状态与动作下的奖励 r(st,at,st+1)r(s_t,a_t,s_{t+1})r(st,at,st+1)goal : 想要求得能够到达目标状态sfs_fsf
复制链接

扫一扫

专栏目录