线性时变系统能用模型预测控制吗_MPC-GPS：模型预测控制指导策略搜索

最新推荐文章于 2024-09-09 22:35:48 发布

weixin_39664136

最新推荐文章于 2024-09-09 22:35:48 发布

阅读量597

点赞数

文章标签：线性时变系统能用模型预测控制吗

原文链接：

Zhang T, Kahn G, Levine S, et al. Learning deep control policies for autonomous aerial vehicles with mpc-guided policy search[C]//2016 IEEE international conference on robotics and automation (ICRA). IEEE, 2016: 528-535.

参考文章：

有模型的强化学习—LQR与iLQR - 王沃河(知乎)

MPC-GPS—强化学习算法控制无人机 - 王沃河(知乎)

背景：

模型预测控制(MPC)是机器人控制领域有效、可靠的控制方法，其对模型误差的鲁棒性强、能达到较高的性能且相对简单。但MPC的计算条件较为苛刻，通常需要系统的全维状态估计，而在复杂的非结构化系统中，状态估计可能极为复杂。

强化学习(RL)是一种基于学习的端到端的控制方法，其能跳过状态估计，通过原始传感器信息直接映射当前状态下所需执行的动作，生成所谓的策略。但强化学习的鲁棒性差，且学习训练过程中，由于"试错"的学习方式，很可能在实际系统中导致灾难性的失败。

主要思想：

既然模型预测控制(MPC)的状态估计复杂难以求取，则用强化学习(RL)来避开状态估计，由原始传感器信息直接得出控制策略；既然强化学习(RL)在"试错"学习中容易出现灾难性失败，则用模型预测控制(MPC)先生成优化轨迹来指导训练。

符号表示：

为系统的状态变量向量，对应于强化学习中的状态

；

为

时刻采取的控制信号，对应于强化学习中的动作

；

为系统的观测，即传感器的原始信息。

为由MPC轨迹优化生成的控制器，

为强化学习所学到的参数化策略。

预备知识：

1.LQR和iLQR

首先感谢王沃河 大佬的推导 T-T.

根据前文的符号定义，我们可以描述一个系统的动态模型为：

定义一个损失函数(cost function)为

,则可定义一个最小化损失的最优控制问题：

LQR：

LQR是对最优控制问题进行了两个强假设的解决方案：1）系统的动态模型

是线性的；2）损失函数

是二次型函数。即：

其中

，

。

考虑求解该优化问题，最小化(2)的性能指标，即要求解

的控制律：

类比强化学习的思想，我们分别设状态价值函数

和动作价值函数

为：

故求解最优控制律，则在每个时刻

下，使得：

由于

函数都与后续时刻相关，可利用动态规划的思想，从最后时刻

开始，反向递归的求解，从而得到所需的最优控制律。

①在第T时刻，

则可直接通过求导找出

函数的最小值：

即：

将(11)式代入

函数，则可消去变量

求得状态价值函数

化简整理为标准二次型为：

其中：

至此我们求得了

时刻的

。

② T-1,T-2,......时刻：

由于

已知，故重复步骤①的推导过程可求得

。

故通过不断反向迭代，最终可求得最优控制律

,具体过程不再多赘述。

整体算法流程为：

iLQR：

LQR对最优控制问题进行了两个强假设，而实际这两个假设很难满足，iLQR(iterative LQR)迭代LQR则是为解决实际应用中非线性的动态系统和损失函数所提出的方法。

处理非线性问题的思路很简单，我们需要将非线性模型线性化，即使用泰勒展开。

其中

，

表示

对

的二阶偏导数，其余符号同理，即

为Hessian矩阵。

表示上一次迭代所得的轨迹和控制律。

故iLQR中迭代的含义与LQR原本的从T时刻到初始时刻的迭代不同，iLQR多了一个通过上一次估计值不断更新估计的迭代过程，最终收敛至最优轨线和控制律。

其中

每步迭代的内层循环为与LQR相同的迭代过程，不再具体赘述。

2.MPC

iLQR是最优控制(OC)问题的求解方法，其目的是求解出全局的最优控制律和最优轨线。但iLQR的问题在于其控制序列过长、Hessian矩阵非正定、系统模型时变等情况下收敛困难，在很多最优控制问题下，想通过iLQR一次性迭代计算收敛到全局最优解似乎很难成功。

而MPC模型预测控制的区别就在于其通过已知模型，求解在未来一段时间内最优的控制律和最优轨线，根据对环境建立的预测模型，可以进行在线轨迹优化。在线的轨迹优化不同于LQR和iLQR的离线优化求解全局最优，MPC追求通过求解未来时间段的最优控制律，并只执行单步控制或K步控制后重新在线预测新的控制律，滚动优化求得整个控制律。

MPC+GPS：

在了解了预备知识LQR/LQG/DDP和MPC之后，可以正式进入论文的理解。

本文提出了将MPC用于强化学习GPS算法的方法，通过MPC生成的数据来降低强化学习试错带来的风险。

GPS：

引导策略搜索方法（GuidedPolicy Search）最早是2013年Sergey Levine在斯坦福读博士的时候提出来的。强化学习算法大神Levine，博士毕业后便去了伯克利跟着Pieter Abbeel做博后，出站后留在了伯克利任教。

GPS结构图

GPS的基本思路是将训练分为两部分：一是控制部分，二是监督学习部分。控制部分往往通过最优控制方法如离线iLQR/iLQG/DDP等方法求解最优轨迹

；监督学习部分则由神经网络拟合参数化策略

使得策略网络

形成的轨迹与最优轨迹

一致。即可描述为以下约束优化问题：

其中，

为整个轨迹的损失，

为

。

直接使用监督学习训练单个状态下的控制动作很难保证获得long-horizon的效果，单个动作的一致性很难反应在两个分布的一致性上，这与模仿学习中的behvior cloning带来的问题一样，GPS中使用KL散度作为一致性的衡量指标，并采用交替更新的方式使得最优控制轨迹和策略网络的轨迹收敛到一致水平。

故将KL散度作为惩罚项，采用拉格朗日乘数法将约束优化问题转化为：

①轨迹优化：

最优控制器通过(19)式生成与策略网络接近的最优轨迹训练数据。

②监督训练：

监督训练通过(20)式调整策略网络逼近最优控制轨迹。其中

是最优轨迹数据

的个数，

是从每条轨迹

中采样的样本点个数，

为轨迹

的总长度。

注意：在监督训练时，策略网络的输入为观测