MPC理论推导

TeenLucifer

已于 2024-07-01 12:45:17 修改

阅读量939

点赞数 9

文章标签：机器学习人工智能自动驾驶算法 python

于 2024-06-22 19:58:14 首次发布

本文链接：https://blog.csdn.net/TeenLucifer/article/details/139887288

版权

MPC理论推导

MPC是工程中常用到的控制器，其核心思想是以优化的方法求解最优控制器，其中优化方法大多时候采用二次规划QP(Quadratic Programming)求解。MPC与LQR的区别是LQR需要线性模型，MPC可以是线性或者非线性的模型。

问题描述

首先建立系统状态空间模型：
$x (k + 1) = A x (k) + B u (k)$

MPC的思想是，在 $t$ 时刻建立一个有限时域 $N$ 内的代价函数 $J$ （LQR建立的是无线时域的代价函数），找某个控制律 $u (t ∣ t)$ ，使得代价函数最小，这里建立得代价函数为：
$\begin{aligned} &J = \sum\limits_{i=0}^{N-1}(x_i^TQx_i + u_i^TRu_i) + x_N^TQ_fx_N\\ &\begin{aligned} s.t. \quad &x_{i+1} = Ax_{i} + Bu_{i}\\ &u_{min} \leq u_i \leq u_{max}\\ &x_{min} \leq x_i \leq x_{max} \end{aligned} \end{aligned} \tag{1}$
式中， $x_i = x(t+i|t)$ 表示在 $t$ 时刻时往前预测 $i$ 步的系统状态； $u_i = u(t+i|t)$ 表示在 $t$ 时刻时往前第i步的控制输入； $x_N = x(t+N|t)$ 表示终端时刻 $N$ 的系统状态，这里单独给x_N设置一个代价项，是为了理论的完备性，这样能够从理论上证明MPC控制方法是收敛的； $Q$ 、 $R$ 、 $Q_f$ 分别表示系统状态、系统输入和终端状态的代价矩阵。

一般求解上面的代价函数用二次规划（QP）求解器，QP问题的标准形式为：
$\begin{aligned} &J = \frac{1}{2}x^T P x + f^T x\\ &\begin{aligned} s.t. \quad &Gx \leq h \end{aligned} \end{aligned} \tag{2}$
我们要做的就是把MPC代价函数（式(1)）转换为QP问题代价函数（式(2)），然后调用QP求解器进行求解。（注意这里的 $x$ 与上面系统状态的 $x_i$ 不是同一个意思，这里的 $x$ 只是待优化决策变量的一个通用表示符号）

MPC问题转换为QP问题

目标函数转换

将预测窗口 $N$ 内的系统状态 $x_i$ 和系统状态 $u_i$ 组成大的向量的形式：
$\begin{aligned} &X(t) = [x_0^T, x_1^T, ..., x_N^T]^T_{(N+1 \times n_x, 1)}\\ &U(t) = [u_0^T, u_1^T, ..., u_{N-1}^T]^T_{(N \times n_u, 1)} \end{aligned}$
其中， $n_x, n_u$ 分别表示系统状态和控制输入的维度。

MPC的代价函数(1)可以写为：
$X(t)^T\bar{Q}X(t) + U(t)^T\bar{R}U(t) \tag{3}$
其中 $\bar{Q}$ 和 $\bar{R}$ 矩阵及其维度分别为：
$\bar{Q} = \begin{bmatrix} Q & 0 & 0 & \cdots & 0 \\ 0 & Q & 0 & \cdots & 0 \\ 0 & 0 & Q & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & 0 & \cdots & Q_f \\ \end{bmatrix}_{((N+1) \times n_x, (N+1) \times n_x)}, \bar{R} = \begin{bmatrix} R & 0 & 0 & \cdots & 0 \\ 0 & R & 0 & \cdots & 0 \\ 0 & 0 & R & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & 0 & \cdots & R \\ \end{bmatrix}_{(N \times n_u, N \times n_u)}$
根据状态转移约束关系 $x_{i+1} = Ax_i + Bu_i$ 可以得到 $X (t)$ 和 $U (t)$ 之间的关系为：
$\begin{aligned} &x(t|t) = x(t|t)\\ &x(t+1|t) = Ax(t|t) + Bu(t|t)\\ &x(t+2|t) = Ax(t+1|t) + Bu(t+1|t) = A^2 x(t|t) + ABu(t|t) + Bu(t+1|t)\\ &x(t+3|t) = Ax(t+2|t) + Bu(t+2|t) = A^3 x(t|t) + A^2Bu(t|t) + ABu(t+1|t) + Bu(t+2|t)\\ \vdots\\ &x(t+N|t) = Ax(t+N-1|t)+Bu(t_N-1|t) = A^Nx(t|t) + A^{N-1}Bu(t+1|t) + ... +Bu(t+N-1|t) \end{aligned}$
写成矩阵形式为：
$\begin{bmatrix} x(t|t)\\ x(t+1|t)\\ x(t+2|t)\\ \vdots\\ x(t+N|t) \end{bmatrix} = \begin{bmatrix} I\\ A\\ A^2\\ \vdots\\ A^N \end{bmatrix} x(t|t) + \begin{bmatrix} 0 & 0 & 0 & \cdots & 0 \\ B & 0 & 0 & \cdots & 0 \\ AB & B & Q & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ A^{N-1}B & A^{N-2}B & A^{N-3} & \cdots & B \\ \end{bmatrix} \begin{bmatrix} u(t|t)\\ u(t+1|t)\\ u(t+2|t)\\ \vdots\\ u(t+N-1|t) \end{bmatrix}$
令：
$\begin{bmatrix} I\\ A\\ A^2\\ \vdots\\ A^N \end{bmatrix}, C = \begin{bmatrix} 0 & 0 & 0 & \cdots & 0 \\ B & 0 & 0 & \cdots & 0 \\ AB & B & Q & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ A^{N-1}B & A^{N-2}B & A^{N-3} & \cdots & B \\ \end{bmatrix}$
那么上面的式子可以写为：
$\tag{4}$
把式(4)代入到式(3)中可以得到MPC的代价函数为：
$U^T(t)(C^T\bar{Q}C + \bar{R})U(t) + 2x_0^TM^T\bar{Q}CU(t) + x_0^TM^T\bar{Q}Mx_0$
对比标准QP问题的代价函数形式： $\frac{1}{2}x^T P x + f^Tx$ ， $x_0^TM^T\bar{Q}Mx_0$ 为常量，可以不考虑到优化问题中，那么令：
$2C^T\bar{Q}C + \bar{R}, f = 2C^T\bar{Q}^TMx_0$

约束转换

MPC问题中的等式约束已经通过式(4)转换到了目标函数中，因此只需要考虑不等式约束转换为 $\leq h$ 的形式，以 $\leq u_i \leq 1$ 为例：
$\begin{aligned} &U(t) = [u_0^T, u_1^T, ..., u_{N-1}^T]^T_{(N \times n_u, 1)}\\ &G = \begin{bmatrix} I_{(N \times n_u)} & 0\\ 0 & -I_{(N \times n_u)} \end{bmatrix}\\ &h = \begin{bmatrix} 1\\1\\ \vdots \\1 \end{bmatrix}_{(2N \times n_u)} \end{aligned}$

至此已经将MPC问题转换为QP问题，然后只需要调用QP求解器进行优化即可。

确定矩阵后，优化输入为当前 $t$ 时刻的系统状态 $x_0 = x(t|t)$ ，优化输出为控制序列 $U (t)$ ，由于理论构建的模型与系统真实模型存在偏差，优化所得的未来控制量对系统控制的价值很低，因此MPC仅执行输出序列 $U (t)$ 中的第一个控制输出。

应用demo

MPC实现轨迹跟踪的demo可以参考这篇博客。

TeenLucifer

关注

9
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
MPC理论推导

MPC是工程中常用到的控制器，其核心思想是以优化的方法求解最优控制器，其中优化方法大多时候采用二次规划QP(Quadratic Programming)求解。MPC与LQR的区别是LQR需要线性模型，MPC可以是线性或者非线性的模型。
复制链接

扫一扫