最优控制理论四、线性二次型最优控制和LQR

倪偲001

已于 2022-10-18 15:47:51 修改

阅读量1w

点赞数 9

分类专栏：最优控制文章标签：机器学习

于 2020-07-27 20:57:50 首次发布

本文链接：https://blog.csdn.net/NICAI001/article/details/107595477

版权

最优控制专栏收录该内容

12 篇文章

订阅专栏

在前面两节最优控制理论二、哈密尔顿函数法，我们利用Hamilton函数法讨论了终端等式约束的非线性控制系统的最优控制，它所解决的是
$\dot{\boldsymbol {x}}=f[\boldsymbol x(t), \boldsymbol u(t), t] ; \quad \boldsymbol x\left(t_{o}\right)=\boldsymbol x_0\quad t_{o} \leq t \leq t_{f} \tag{问题0}\\ \min_{u(t)}J=\varphi\left[\boldsymbol x\left(t_{f}\right), t_{f}\right]+\int_{t_{o}}^{t_{f}} L[\boldsymbol x(t), \boldsymbol u(t), t] \text d t\\ \psi(\boldsymbol x(t_f),t_f)=0$

这样的问题。
我们下面来讨论，更特殊一些的，连续线性系统、线性反馈、二次型性能指标、无约束问题的最优控制。事实上，前面两章的方法由于解析解不易推导及BVP问题难以直接求解，所以基本只能用来进行离线的轨迹规划；而LQR方法简单到调用一个命令就可以给出反馈增益矩阵，能在工程应用中实现实时在线控制。

线性时变系统的二次型最优控制

对于这样一个性能指标为二次型函数的线性时变系统：
$\dot{\boldsymbol{x}}=A(t)\boldsymbol{x}+B(t)\boldsymbol{u}, \quad \boldsymbol{x}(0)=\boldsymbol{x}_{0}\neq0\quad 0 \leq t \leq t_{f}\tag {问题1}\\ \min_{\boldsymbol u(t)}J=\frac{1}{2} \boldsymbol{x}^{\mathrm T}(t_f) \boldsymbol{S}_f\boldsymbol{x}(t_f) +\frac{1}{2} \int_{0}^{t_f}\left(\boldsymbol{x}^{\mathrm T} \boldsymbol{Q}(t) \boldsymbol{x}+\boldsymbol{u}^{\mathrm T} \boldsymbol{R}(t) \boldsymbol{u}\right) \text d t$

其中 $\boldsymbol x_0,t_f$ 给定， $\boldsymbol x\in\Reals^n,\boldsymbol u(t)\in\Reals^m,S=S^{\mathrm T}\succcurlyeq0, Q=Q^{\mathrm T}\succcurlyeq0,R=R^{\mathrm T}\succ0$ ，（正定对称矩阵）状态方程中的 $A (t), B (t)$ 、以及性能指标中的 $Q (t), R (t)$ 均为时变矩阵。
终端控制器问题（LQ Terminal Controller）的要求是，求出一个控制器使得从不为0的初始状态，经过一段时间后转移到接近零状态 $\boldsymbol x(t_f)\approx 0\neq0$ 。显然若终端状态彻底为0，则性能指标就没有存在第一项的必要了。

Riccati方程

问题的一阶必要条件按照Hamilton函数法建立问题描述：

构建Hamiltonian
$H=\frac{1}{2}\left(\boldsymbol{x}^{\mathrm T} \boldsymbol{Q} \boldsymbol{x}+\boldsymbol{u}^{\mathrm T}\boldsymbol{R} \boldsymbol{u}\right)+\lambda^{\mathrm T}(\boldsymbol{A} \boldsymbol{x}+\boldsymbol{B} \boldsymbol{u})$
Euler方程（这是由Hamilton函数法推导得到的）
$\dot{\boldsymbol{x}}=A\boldsymbol{x}+B\boldsymbol{u}\\ \dot{\lambda}=-H_{\mathrm{x}}=-\boldsymbol{Q} \boldsymbol{x}-\boldsymbol{A}^{\mathrm T} \boldsymbol{\lambda}$
控制方程（最优控制的必要条件）
$\frac{\partial H}{\partial \boldsymbol u}=\boldsymbol{R} \boldsymbol{u}+\boldsymbol{B}^{\mathrm{T}} \lambda=\boldsymbol{0} \quad \implies \boldsymbol{u}=-\boldsymbol{R}^{-1} \boldsymbol{B}^{\mathrm{T}} \lambda$
终端时刻的边界条件
$\boldsymbol{x}(0)=\boldsymbol{x}_{0}\\ \lambda(t_f)=\frac{\partial \varphi}{\partial \boldsymbol x^{\mathrm T}}\implies \lambda(t_f)=S_f\boldsymbol x(t_f)$

假设协态变量始终和状态变量成线性关系 $\lambda(t)=S(t)x(t)\tag 1$ 其中 $S (t)$ 矩阵未知。这个假设的合理性可以考虑Hamilton系统状态转移矩阵的线性性：
$\begin{bmatrix}x(t_f)\\ \lambda(t_f)\end{bmatrix}= \Phi(t_f;t) \begin{bmatrix}x(t)\\\lambda(t)\end{bmatrix}= \begin{bmatrix}\Phi_{11}\quad \Phi_{12}\\ \Phi_{21}\quad \Phi_{22}\end{bmatrix} \begin{bmatrix}x(t)\\\lambda(t)\end{bmatrix}\\$ 然后展开即可证明这个假设是合理的：
$\Phi_{21}x+\Phi_{22}\lambda= \textcolor{blue}{\lambda(t_f)=S_f\boldsymbol x(t_f)} =S_f[\Phi_{11}x+\Phi_{12}\lambda]\\ \Downarrow\\ \lambda(t)=[\Phi_{22}-S_f\Phi_{12}]^{-1}[S_f\Phi_{11}-\Phi_{21}]\boldsymbol x(t)\equiv S(t)\boldsymbol x(t)$

由上述假设，可得到最优的控制器是状态反馈控制器，且它的形式为
$u^*(t)=-R^{-1}B^{\mathrm T}S(t)\boldsymbol x(t)=-K(t)\boldsymbol x(t)\tag 2$

式中的 $K (t)$ 为未知的反馈增益矩阵。把控制代入状态方程和协态变量，构成两点边值问题为
$\begin{aligned} \dot{\boldsymbol{x}}&=A \boldsymbol{x}-B R^{-1} B^{\mathrm T} S(t) \boldsymbol{x}=\quad \left(A-B R^{-1} B^{\mathrm T} S(t)\right) \boldsymbol{x} \\ \dot{\lambda}&=\dot{ S} \boldsymbol{x}+ S(t) \dot{\boldsymbol{x}}=\quad \dot{ S} (t)\boldsymbol{x}+ S(t)\left(A-B R^{-1} B^{\mathrm T} S(t)\right) \boldsymbol{x}\\&=-Q \boldsymbol{x}-A^{\mathrm T} S(t) \boldsymbol{x} \end{aligned}\quad\tag 3$

将最优控制 $(3)$ 代入状态方程，即可得到闭环系统的动态方程：

$\begin{bmatrix} \dot{\boldsymbol{x}} \\ \dot{\lambda} \end{bmatrix}=\begin{bmatrix} A &-{B R}^{-1} B^{\mathrm T} \\ -Q & -A^{\mathrm T} \end{bmatrix}\begin{bmatrix} \boldsymbol{x} \\ \lambda \end{bmatrix}\tag {3*}$

这个两点边值问题（TPBVP）的未知变量数2n，初始状态提供n个边界条件，终端时刻 $\lambda(t_f)=S\boldsymbol x(t_f)$ 提供n个横截条件。
公式 $(3)$ 中 $S (t)$ 是一个与时间相关的函数矩阵，它在终端时刻的值就是性能指标中我们设定的值。考虑公式 $(3)$ 最后一个等式关系，可以求解出 $S (t)$ ：
$-\dot{S}(t)=A^{\mathrm T} S+S A-S B R^{-1} B^{\mathrm T} S+Q, \quad S(t_f)=S_f\tag 4$

这个公式 $(4)$ 称为矩阵黎卡提Riccati方程，也会称作状态相关黎卡提方程（State-dependent Riccati Equation， SDRE）。
可以证明 $S (t)$ 是半正定对称矩阵。已知 $S(t_f)$ ，按照时间逆向积分，可以得到 $S (t)$ ，最终得到 $S(t_0)$ ；然后考虑到 $\lambda(t_0)=S(t_0)\boldsymbol x_0$ 可以得到问题 $(3 *)$ 的初值，然后再正向积分一次即可得到所有的结果。

非对角阵形式的性能指标

如果遇到下面这种形式的性能指标：
$J=\frac{1}{2} \boldsymbol{x}^{\mathrm T}(t_f) \boldsymbol{S}_f \boldsymbol{x}(t_f)+ \frac 1 2\int_{0}^{t_f}\left(x^{T} Q x+u^{T} R u+2 x^{T} N u\right) \text d t\\ =\frac{1}{2} \boldsymbol{x}^{\mathrm T}(t_f) \boldsymbol{S}_f\boldsymbol{x}(t_f)+ \frac{1}{2} \int_{t_{0}}^{t_{f}}\begin{bmatrix} X \\U \end{bmatrix}^{\mathrm{T}}\begin{bmatrix} Q & N \\ N^{\mathrm{T}} & R \end{bmatrix} \begin{bmatrix}X \\U \end{bmatrix} \mathrm{d} t\tag{问题1*}$

也就是性能指标中包含了状态 $x$ 和控制 $u$ 的耦合项。其中 $\succcurlyeq 0, R\succ0 \text { 且 } Q-N R^{-1} N^{\mathrm T}\succcurlyeq0$ ，这个情况可以通过配方法转换成对角阵的形式[2]：
$\begin{aligned} &\begin{bmatrix} X \\U \end{bmatrix}^{\mathrm{T}}\begin{bmatrix} Q & N \\ N^{\mathrm{T}} & R \end{bmatrix} \begin{bmatrix}X \\U \end{bmatrix}\\ &=X^{\mathrm{T}} Q X+2 X^{\mathrm{T}} N U+U^{\mathrm{T}} R U \\&=X^{\mathrm{T}} Q X+U^{\mathrm{T}} R U+X^{\mathrm{T}} N U+U^{\mathrm{T}} N^{\mathrm{T}} X +X^{\mathrm{T}} N R^{-1} N^{\mathrm{T}} X-X^{\mathrm{T}} N R^{-1} N^{\mathrm{T}} X \\&=X^{\mathrm{T}}\left(Q-N R^{-1} N^{\mathrm{T}}\right) X+\left(U+R^{-1} N^{\mathrm{T}} X\right)^{\mathrm{T}} R\left(U+R^{-1} N^{\mathrm{T}} X\right) \end{aligned}$

令 $\left\{\begin{array}{l} \tilde{Q}=Q-Q_{1} R^{-1} N^{\mathrm{T}} \\ \tilde{U}=U+R^{-1} N^{\mathrm{T}} X \end{array}\right.\tag 5$ 可把原系统化成新的形式
$\dot x=Ax+B(\tilde u-R^{-1} N^{\mathrm{T}} x) =(A-BR^{-1} N^{\mathrm{T}} )x+B\tilde u$

这个新系统可以套用前面所述的方法， $(问题 1 *)$ 等价于求解 $(问题 1)$ ：
$J=\frac{1}{2} \boldsymbol{x}^{\mathrm T}(t_f) \boldsymbol{S}_f \boldsymbol{x}(t_f)+ \frac 1 2\int_{0}^{t_f}\left(x^{T} \tilde Q x+\tilde u^{T} R \tilde u\right) \text d t$

总结
把非线性系统在标称状态附近线性化，就可得到线性时变系统。在这个意义上，上面讨论的问题很宽泛。此外，问题还在于只能采用数值计算方法，要计算 $\boldsymbol x(t),\lambda(t),S(t_0)$ ，以及反馈控制采用的是时变增益 $K (t)$ 。在工程上使用更多的是线性定常系统、无穷时域的相关问题。也就是我们下面要讨论的LQR问题。

$t_f=\infty$ 的线性二次型调节器

线性系统（定常或时变）、二次型指标的状态调节器问题一般称为线性二次型调节器（Linear Quadratic Regulator，LQR），其任务通常为

有限时间内，把状态调节到接近0
无穷时域，使状态在干扰下保持在0附近，以上两种都是状态调节器问题
无穷时域，使状态保持在参考轨迹 $x_{ref}(t)$ 附近，等价于使跟踪误差 $\delta x=x-x_{ref}$ 维持在0附近，也就是状态跟踪器问题
输出调节器和输出跟踪器问题，都是增加了一项观测方程 $\boldsymbol y=C\boldsymbol x$ ，控制的对象是 $y (t)$

无限时域、线性定常系统的LQR问题是 $(\text{问题}1)$ 的特殊形式，其中时变矩阵为常值矩阵 $A (t) = A, B (t) = B, Q (t) = Q, R (t) = R$ ，且 $S_f=0$ ，即
$\dot{\boldsymbol{x}}=A\boldsymbol{x}+B\boldsymbol{u}, \quad \boldsymbol{x}(0)=\boldsymbol{x}_{0}\quad 0 \leq t \lt\infty\\ \min_{u(t)=-Kx(t)}J=\frac{1}{2} \int_{t_{0}}^{\infty}\left[x(t)^{\mathrm T} Q x(t)+u(t)^{\mathrm T} R u(t)\right] \text d t\tag{问题2}$

采用线性反馈控制器. 控制回路如下图：

要满足线性反馈，即 $\boldsymbol u^*(t)=-K\boldsymbol x(t)$ ，考虑最优控制 $\boldsymbol u^*(t)=-\boldsymbol{R}^{-1} \boldsymbol{B}^{\mathrm T}\lambda(t)$ ，可以导出协态变量与状态变量成线性关系： $\lambda(t)=S^*\boldsymbol x(t)$ ，即公式 $(1)$ 中的 $S(t)=S^*\implies\dot S(t)=0$ 。考虑到矩阵Riccati方程的终端条件 $S(t_f)=S_f=0$ ，可得稳态状态的Riccati方程：
$0=A^{\mathrm T} S+S A-S B R^{-1} B^{\mathrm T} S+Q\tag 6$

方程 $(6)$ 中唯一需要求解的矩阵是 $S=S^\mathrm T\succcurlyeq0$ 。需要注意的是，虽然 $\lim_{t_f\to\infty}S(t_f)=0,\dot S(t)=0$ ，但似乎不能直接假设 $S = 0$ 。对这个矩阵的求解方法，可以参考文献[3]中的描述。知道它，就可以得到我们所关心的增益矩阵K：
$K=\boldsymbol{R}^{-1} \boldsymbol{B}^{\mathrm T}S\tag 7$

此时闭环系统的状态方程为：

$\dot{\boldsymbol x}=A\boldsymbol x+B\boldsymbol u=(A-BR^{-1} B^{\mathrm T}S)\boldsymbol x\tag 8$

至此可以求解闭环系统了。
调用MATLAB中的函数[K,S,e] = LQR(A,B,Q,R,N)，我们的任务只有设置合适的权重 $Q, R$ ，对于这一点，目前还只能靠经验。Q越大，相当于越强调状态迅速归零；对于轨迹跟踪控制，则跟踪误差越小。这种情况对控制的需求较大，控制带宽和饱和幅值较小的执行机构可能无法做出有效的响应。R越大，越强调最小能量消耗，即控制最少，此时状态误差可能在较大范围内抖动。这两者之间是一个权衡关系。进一步的介绍可以参看知乎文章 - 21. LQR控制器— 线性二次型调节器 Linear Quadratic Regulator。

渐近稳定性证明

由以下两个常用的定理：
定理1：闭环系统 $\dot{\boldsymbol x}=A_c\boldsymbol x$ 渐进稳定等价于对 $\forall Q=Q^{\mathrm T}\succ0$ ，Lyapunov方程 $A_c^{\mathrm T}P+PA_c=-Q$ 存在唯一对称正定解 $P$ 。
定理2：闭环系统 $A_c$ 渐进稳定的充分条件是：存在正定的Lyapunov函数 $V(\boldsymbol x)$ ，沿闭环系统的状态方程满足 $\frac{\mathrm d V}{\mathrm dt}<0$ 。

最优线性反馈的闭环系统满足公式 $(8)$ ，闭环状态矩阵 $A_c=A-BR^{-1} B^{\mathrm T}S$ ，则Lyapunov方程要求解正定矩阵P：
$A_c^{\mathrm T}P+PA_c\prec0$

把Riccati方程两边同时减去 $2SBR^{-1}B^{\mathrm T}S=2K^{\mathrm T}RK$ ，可得
$\begin{aligned} A^{\mathrm T} S+S A+Q&=S B R^{-1} B^{\mathrm T} S\\ (A-BR^{-1} B^{\mathrm T}S)^{\mathrm T} S+S (A-BR^{-1} B^{\mathrm T}S)&=-S B R^{-1} B^{\mathrm T} S-Q\\ A_c^{\mathrm T}S+SA_c&<-Q\prec0 \end{aligned}$

则闭环系统渐进稳定。

最优性证明

Riccati方程 $(4)$ 和 $(6)$ 是按照最优控制的必要条件推导得到的，可以证明它是唯一的充分条件。证明这一点可以运用连续系统最优性的充要条件，即求解连续系统动态规划法的 $\text {Hamilton-Jacobi-Bellman}$ 方程可以证明，请参考文献[3]。

参考文献

[1]. Wikipedia： Linear-quadratic regulator-The free Dictionary
[2]. 邢继祥. 最优控制应用基础. 第四章线性系统二次型最优控制[M]. 科学出版社, 2003.
[3]. Bryson A E , Ho Y C ,Applied optimal control : optimization, estimation, and control. Ch.5 Linear system with quadratic criteria: linear feedback[J]. IEEE Transactions on Systems Man & Cybernetics, 1975
[4]. 知乎专栏 - 21. LQR控制器— 线性二次型调节器 Linear Quadratic Regulator
[5]. 知乎专栏 - 最优控制理论（七）LQR伺服跟踪控制器设计