LQR控制算法及其仿真实现

LaplaceVan

已于 2022-05-09 18:29:39 修改

阅读量4.3k

点赞数 4

分类专栏：移动机器人跟踪控制文章标签： matlab 算法自动驾驶

于 2022-04-28 20:11:57 首次发布

本文链接：https://blog.csdn.net/qq_42239519/article/details/122588697

版权

移动机器人跟踪控制专栏收录该内容

2 篇文章 3 订阅

订阅专栏

文章目录

1 离散有限时间系统
2 拉格朗日乘子法求解LQR
reference

1 离散有限时间系统

1.1 LQR问题描述

离散系统方程：
$x_{t+1}=A_{n\times n}x_{t}+B_{n\times m}u_{t}, x_0=x^{init}$
问题: 选取 $u_0,u_1,\ldots$ 使得：

$x_0,x_1,\ldots$ 较小，获得较好的状态控制；
$u_0,u_1,\ldots$ 较小，使用较少的输入控制；

较大的 $u$ 可以使 $x$ 快速趋于0。

定义二次代价函数：
$J(U)=\sum_{\tau=0}^{N-1}(x^T_{\tau}Qx_{\tau}+u^T_{\tau}Ru_{\tau})+x^T_NQ_fx_N$
其中， $U=(u_0,u_1,\ldots,u_{N-1})$
$Q=Q^T\ge0,Q_f=Q^T_f\ge0,R=R^T>0$
分别为状态代价权重矩阵，终态代价权重矩阵和输入权重矩阵。

$N$ 为时间范围，可有限也可无限，后续分开讨论。

$R > 0$ 表示任何非零输入都会影响代价 $J$

LQR问题：找到 $u_0^{lqr},u_1^{lqr},\ldots,u_{N-1}^{lqr}$ 使 $J$ 最小。

1.2 最小二乘法求解

令 $X=[x_0^T,x_1^T,\ldots,x_N^T]^T,U=[u_0^T,u_1^T,\ldots,u_{N-1}^T]^T$ ，则有：
$X_{Nn\times 1}= \begin{bmatrix} B&&0&&\cdots&&0\\ AB && B && \cdots &&0\\ \vdots && \vdots && \vdots && \vdots \\ A^{N-1}B && A^{N-2}B && \cdots &&B \end{bmatrix}_{Nn\times Nm}U_{Nm\times 1}+ \begin{bmatrix} A\\ \vdots\\ A^{N} \end{bmatrix}_{Nn\times n}x_0$
写做：
$X=GU+Hx_0$
则有：
$J=U^T\widetilde RU+X^T\widetilde QX=U^T\widetilde RU+(GU+Hx_0)^T\widetilde Q(GU+Hx_0)$
其中 $\widetilde R=diag(\underbrace{R,R,\cdots,R}_{N\text{个}})$ ， $\widetilde Q=diag(\underbrace{Q,Q,\cdots,Q}_{N\text{个}})$
$J$ 可以表示为关于 $U$ 的二次型形式：
$J(U)=U^T(\widetilde R +G^T\widetilde QG)U+2x_0^TH^T\widetilde QGU+x_0^TH^T\widetilde QHx_0$
可以证明求 $J$ 的最小值是一个凸优化问题，可直接求导得到 $J$ 取最小值时的 $U$ 。
$\frac{dJ}{dU}=2(\widetilde R +G^T\widetilde QG)U+2G^T\widetilde QHx_0$
令 $\frac{dJ}{dU}=0$ ，则有
$U^*=-(\widetilde R +G^T\widetilde QG)^{-1}G^T\widetilde QHx_0$

1.3 最小二乘法编程实现

以下为一个简单的例子：

%% Problem description:
% Suppose there is a car moving along the trajectory, and the current speed
%   is 0.1m/s. The current state of the car is that the lateral error is 0.5m, 
%   and the lateral error angle is 5 degrees. Now that the car wants to eliminate 
%   the lateral error by entering the angular velocity, we need to design the LQR
%   target and solve it.

% state function:
% [dx1, dx2]' = [0, v; 0, 0] * [x1, x2]' + [0, 1]' * u
% where x1 is the the lateral error, x2 is the the lateral error
%   angle, and u is the angular velocity
% Initial state: x1 = 0.5, x2 = 0.0872;
% End state: x1 = 0

%%
clear;clc;
close all;

A = [0, 0.1; 0, 0];
B = [0, 1]';
x0 = [0.5, 0.0872]';
[state_num, input_num] = size(B);

dt = 0.05;
N = 80/dt;

Ak = eye(2) + dt*A;
Bk = dt*B;

Q = eye(2);
R = 1;

% X = G * U + H * x0
G = zeros(N*state_num, N*input_num);
H = zeros(N*state_num, state_num);

tic;
for i = 1:N
    for j = 1:i
        G((state_num*(i-1)+1):(state_num*(i)), (input_num*(j-1)+1):(input_num*(j))) = Ak^(i-j)*Bk;
        H((state_num*(i-1)+1):(state_num*(i)), 1:state_num) = Ak^(i);
    end
end

H_q = diag(repmat(diag(R), N, 1)) + G'*diag(repmat(diag(Q), N, 1))*G;
f_q = x0'*H' * diag(repmat(diag(Q), N, 1)) *G;
U = - H_q \ f_q';
X = G*U+H*x0;
X1 = [x0(1); X(1:2:end-2)];
X2 = [x0(2); X(2:2:end-2)];
toc;

figure;
subplot(2, 1, 1);
hold on;
plot(X1, 'b');

subplot(2, 1, 2);
plot(X2, 'b');

lateral error和lateral angular error
运行时间为71s，讲义里说明这种解法时间复杂度为 $O(N^3nm^2)$ ，确实效率不高。

1.4 动态规划算法

定义函数 $V_t:\mathbf{R}^n\rightarrow\mathbf{R}$
$V_t(z)=\mathop{min}\limits_{u_t, \cdots, u_{N-1}}\sum\limits_{\tau=t}^{N-1}(x_{\tau}^TQx_{\tau}+u_{\tau}^TRu_{\tau})+x_N^TQ_fx_N$
满足 $x_t=z, x_{\tau+1}=Ax_{\tau}+Bu_{\tau}$ 。则有一下几个性质：

$V_t(z)$ 即为从 $t$ 时刻，初始状态为 $z$ 开始的LQR代价函数；
$V_0(x_0)$ 为系统LQR代价函数；
可以证明 $V_t$ 可以写成二次型形式，即 $V_t(z)=z^TP_tz$ ，并且有 $P_t=P_t\geq0$ ；
$P_t$ 可以从 $t = N$ 开始反向递归求解；
最优控制 $u$ 可以用 $P_t$ 表示。

假设我们知道 $V_{t+1}(z)$ ，需要选取 $u_t$ 使得系统代价函数最小， $u_t$ 的选取会影响 $u_t^TRu_t$ ，以及从下一个时刻开始的代价函数 $V_{t+1}(Az+Bu_t)$ 。
动态规划基本公式：
$V_t(z)=\mathop{min}\limits_{w}(z^TQz+w^TRw+V_{t+1}(Az+Bw))$
$w$ 即为使得 $V_t(z)$ 取最小值的 $u_t$ 。
根据上面的第三条性质，有：
$V_{t+1}(Az+Bw)=(Az+Bw)^TP_{t+1}(Az+Bw)$
代入上式可得：
$V_t(z)=\mathop{min}\limits_{w}(z^TQz+w^TRw+(Az+Bw)^TP_{t+1}(Az+Bw))$
同时也可以证明该问题为凸优化，最小值取在导数为0处。
$\frac{dV_t}{dw}=2w^TR+2(Az+Bw)^TP_{t+1}B=0$
可得：
$w^*=-(R+B^TP_{t+1}B)^{-1}B^TP_{t+1}Az$
则有：
$\begin{aligned} V_t(z) &= z^TQz+w^{*T}Rw^*+(Az+Bw^*)^TP_{t+1}(Az+Bw^*) \\ &= \cdots \\ &= z^T(Q+A^TP_{t+1}A-A^TP_{t+1}B(R+B^TP_{t+1}B)^{-1}B^TP_{t+1}A)z \\ &= z^TP_tz \end{aligned}$
所以：
$P_t = Q+A^TP_{t+1}A-A^TP_{t+1}B(R+B^TP_{t+1}B)^{-1}B^TP_{t+1}A$
同时又有 $P_N=Q_f$ ，所以可以根据时间序列反向求解 $P_{N-1},P_{N-2},\cdots,P_0$ ，根据 $w^*$ 表达式可以顺序求解 $u_t^{lqr}$ 。动态规划算法总结如下：

令 $P_N=Q_f$ ；
对于 $t=N,\cdots,1$ ， $P_{t-1}=Q+A^TP_{t}A-A^TP_{t}B(R+B^TP_{t}B)^{-1}B^TP_{t}A$
对于 $t=0,\cdots,N-1$ ，定义 $K_t=(R+B^TP_{t+1}B)^{-1}B^TP_{t+1}A$
对于 $t=0,\cdots,N-1$ ，最优控制为： $u_t^{lqr}=K_tx_t$

1.5 动态规划算法实现

问题描述：
两自由度，单输入单输出系统：
$x_{t+1}=\begin{bmatrix} 1 & 1\\ 0 &1 \end{bmatrix}x_t+\begin{bmatrix}0 \\1 \end{bmatrix}u_t,\ y_t=\begin{bmatrix} 1 & 0 \end{bmatrix}x_t$
初始状态 $x_0=(1, 0), N=20$ ，权重矩阵： $Q=Q_f=C^TC, R=\rho I$ ，可取 $\rho_1=0.3, \rho_2=10$ 。

clear;clc;
close all;

A = [1,1;0,1];
B = [0;1];
C = [1,0];
x0 = [1;0];

N = 20;
Q = C'*C;
Q_f = Q;
rho = 0.3;
R = rho*eye(size(B, 2));

P = zeros(2, 2, N);
P(:,:,N) = Q_f;

for i = N-1:-1:1
    P(:,:,i) = Q+A'*P(:,:,i+1)*A-A'*P(:,:,i+1)*B/(R+B'*P(:,:,i+1)*B)*B'*P(:,:,i+1)*A;
end

K = zeros(1, 2, N);
u = zeros(1,N);
x = zeros(2, N);
x(:, 1) = x0;
y = zeros(1, N);

for i = 1:1:N-1
   K(:, :, i) = -(R+B'*P(:,:,i+1)*B)\B'*P(:,:,i+1)*A;
   u(i) = K(:,:,i)*x(:,i);
   x(:, i+1) = A*x(:, i)+B*u(i);
   y(i) = C*x(:, i);
end

figure(1);
subplot(2,2,1);
plot(u, '-ob');
hold on;grid on;
subplot(2,2,3);
plot(y, '-ob');
hold on;grid on;
K1 = reshape(K(1,1,:), 1, N);
K2 = reshape(K(1,2,:), 1, N);
subplot(2,2,2);
hold on;grid on;
plot(K1, '-b');
ylabel('K1');
subplot(2,2,4);
hold on;grid on;
plot(K2, '-b');
ylabel('K2');

%%
rho = 10;
R = rho*eye(size(B, 2));

P = zeros(2, 2, N);
P(:,:,N) = Q_f;

for i = N-1:-1:1
    P(:,:,i) = Q+A'*P(:,:,i+1)*A-A'*P(:,:,i+1)*B/(R+B'*P(:,:,i+1)*B)*B'*P(:,:,i+1)*A;
end

K = zeros(1, 2, N);
u = zeros(1,N);
x = zeros(2, N);
x(:, 1) = x0;
y = zeros(1, N);

for i = 1:1:N-1
   K(:, :, i) = -(R+B'*P(:,:,i+1)*B)\B'*P(:,:,i+1)*A;
   u(i) = K(:,:,i)*x(:,i);
   x(:, i+1) = A*x(:, i)+B*u(i);
   y(i) = C*x(:, i);
end

figure(1);
subplot(2,2,1);
plot(u, '-*r');
ylabel('u');
hold on;grid on;
legend('\rho = 0.3', '\rho = 10');
subplot(2,2,3);
plot(y, '-*r');
ylabel('y');
hold on;grid on;
legend('\rho = 0.3', '\rho = 10');

K1 = reshape(K(1,1,:), 1, N);
K2 = reshape(K(1,2,:), 1, N);
subplot(2,2,2);
hold on;grid on;
plot(K1, '-r');
ylabel('K1');
legend('\rho = 0.3', '\rho = 10');
subplot(2,2,4);
hold on;grid on;
plot(K2, '-r');
ylabel('K2');
legend('\rho = 0.3', '\rho = 10');

运行结果如下：

在这里插入图片描述
从上图结果可以发现， $K_t$ 从 $t = 0$ 开始一段时间内为恒定值，或者说 $P_t$ 从 $N$ 反向开始后很快就能收敛到恒定值。
即有：
$P_{ss} = Q+A^TP_{ss}A-A^TP_{ss}B(R+B^TP_{ss}B)^{-1}B^TP_{ss}A$
同时说明，对于不是很接近最终时刻的 $t$ 时刻，LQR控制可以看作是一个线性定常反馈系统：
$u_t = K_{ss}x_t, K_{ss} = -(R+B^TP_{ss}B)^{-1}B^TP_{ss}$
这在实际中经常用到。
另外讲义中也提到，最终态的权重矩阵对反馈增益没有影响，即 $P_t$ 的初始值对其收敛值没有影响：
在这里插入图片描述
另外用DP方法求解第一个问题耗时不超过0.02s。

2 拉格朗日乘子法求解LQR

2.1 一些实用的矩阵特征

（1）
$Z(I+Z)^{-1}=I-(I+Z)^{-1}$
其中 $(I + Z)$ 可逆。证明右边同乘 $(I + Z)$ 即可。
（2）
$I+XY)^{-1}=I-X(I+YX)^{-1}Y$
证明：
$\begin{aligned}(I-X(I+YX)^{-1}Y)(I+XY) &= I+XY-X(I+YX)^{-1}Y(I+XY)\\ &= I+XY-X(I+YX)^{-1}(I+YX)Y\\ &= I+XY-XY=I \end{aligned}$
（3）
$Y(I+XY)^{-1}=(I+YX)^{-1}Y$
证明左乘 $(I + Y X)$ 右乘 $(I + X Y)$ 即可。速记：左边 $Y$ 移进去，右边 $Y$ 移出来。
（4）
$I+XZ^{-1}Y)^{-1}=I-X(Z+YX)^{-1}Y$
证明直接使用公式（2）即可。
（5）
$A+BC)^{-1}=A^{-1}-A^{-1}B(I+CA^{-1}B)^{-1}CA^{-1}$
证明：
$\begin{aligned}(A+BC)^{-1}&=(A(I+A^{-1}BC))^{-1}\\ &=(I+A^{-1}BC)^{-1}A^{-1}\\ &=(I-A^{-1}B(I+CA^{-1}B)^{-1}C)A^{-1} (使用公式(2))\\ &=A^{-1}-A^{-1}B(I+CA^{-1}B)^{-1}CA^{-1} \end{aligned}$
（6）根据之前关于 $P_t$ 的表达式可以进行化简：
$\begin{aligned}P_t &= Q+A^TP_{t+1}A-A^TP_{t+1}B(R+B^TP_{t+1}B)^{-1}B^TP_{t+1}A\\ &=Q+A^TP_{t+1}(I-B(R+B^TP_{t+1}B)^{-1}B^TP_{t+1})A\\ &=Q+A^TP_{t+1}(I-B((I+B^TP_{t+1}BR^{-1})R)^{-1}B^TP_{t+1})A\\ &=Q+A^TP_{t+1}(I-BR^{-1}(I+B^TP_{t+1}BR^{-1})^{-1}B^TP_{t+1})A\\ &=Q+A^TP_{t+1}(I+BR^{-1}B^TP_{t+1})^{-1}A(使用公式(2))\\ &=Q+A^T(I+P_{t+1}BR^{-1}B^T)^{-1}P_{t+1}A \end{aligned}$

2.2 线性约束最优化问题

$\begin{aligned}min\enspace &f(x)\\ s.t.:\enspace &Fx=g \end{aligned}$

$f:\mathbf R^n \rightarrow \mathbf {R}$
$F\in \mathbf R^{m\times n}$

拉格朗日表达式：
$L(x,\lambda)=f(x)+\lambda ^T(g-Fx)$
其中， $\lambda$ 为拉格朗日乘子。若 $x$ 是最优解，则有：
$\nabla _xL=\nabla f(x)-F^T\lambda = 0, \enspace \nabla _\lambda L=g-Fx=0$
即 $\nabla f(x)=F^T\lambda$
在这里插入图片描述

假设当前位置为 $x$ ，为可行点，即 $F x = g$ ；
考虑沿 $v$ 方向移动很小距离 $h$ ，到达 $x + h v$ 位置；
为了移动后仍为可行点，则需 $F (x + h v) = g + h F v = g$ ，即 $F v = 0$ ，所以 $v\in \Nu (F)$ ，称为可行方向；
需要移动后得到更小目标函数： $f(x+hv)\approx f(x)+h\nabla f(x)^Tv<f(x)$

当 $\nabla f(x)^Tv<0$ 时，为目标函数下降方向。当存在下降方向时， $x$ 不为最优解，所以当 $x$ 为最优解时，应满足 $\nabla f(x)^Tv=0$

2.3 LQR约束最优化求解

把LQR问题写成最优化问题：
$\enspace J=\frac{1}{2}\sum_{t=0}^{N-1}(x_t^TQx_t+u_t^TRu_t)+\frac{1}{2}x_N^TQ_fx_N\\s.t. \enspace x_{t+1}=Ax_t+Bu_t, \enspace t=0,1,\cdots,N-1$
则有拉格朗日表达式：
$L=J+\sum_{t=0}^{N-1}\lambda _{t+1}(Ax_t+Bu_t-x_{t+1})$
则有：
$\nabla _{u_t}L=Ru_t+B^T\lambda_{t+1}=0,\enspace u_t=-R^{-1}B^T\lambda _{t+1}\\ \nabla _{x_t}L=Qx_t+A^T\lambda_{t+1}-\lambda_t=0, \enspace \lambda _t=A^T\lambda_{t+1}+Qx_t\\ \nabla _{x_N}L=Q_fx_N-\lambda_N=0, \enspace \lambda_N=Q_fx_N$
对于原系统有：
$x_{t+1}=Ax_t+Bu_t, \enspace x_0=x^{init}$
迭代计算是从0时刻向后进行，初始条件为起始状态。
现在有：
$\lambda _t=A^T\lambda_{t+1}+Qx_t, \enspace \lambda _N=Q_fx_N$
迭代计算从 $N$ 时刻开始向前进行，初始条件为最终状态。
所以称 $\lambda$ 为伴随状态，上式也称为伴随系统的状态方程。

可以用归纳法证明 $\lambda_t=P_tx_t$ :
对于 $t = N$ ，有 $\lambda _N=Q_fx_N$ ，现在假设 $\lambda_{t+1}=P_{t+1}x_{t+1}$ 成立，证明 $\lambda_t=P_tx_t$ ：
有： $\lambda_{t+1}=P_{t+1}(Ax_t+Bu_t)=P_{t+1}(Ax_t-BR^{-1}B^T\lambda _{t+1})$
所以：
$\lambda _{t+1}=(I+P_{t+1}BR^{-1}B^T)^{-1}P_{t+1}Ax_t$
所以：
$\lambda _t=A^T\lambda_{t+1}+Qx_t=A^T(I+P_{t+1}BR^{-1}B^T)^{-1}P_{t+1}Ax_t+Qx_t=P_tx_t$
其中 $P_t=Q+A^T(I+P_{t+1}BR^{-1}B^T)^{-1}P_{t+1}A$ 与之前化简后结果一致。

持续更新中…

reference

stanford EE363 Linear Dynamical Systems

LaplaceVan

关注

4
点赞
踩
60

收藏

觉得还不错? 一键收藏
3
评论
LQR控制算法及其仿真实现

文章目录1 理论推导1.1 LQR问题描述1 理论推导1.1 LQR问题描述离散系统方程：xt+1=Axt+But,x0=xinitx_{t+1}=Ax_{t}+Bu_{t}, x_0=x^{init}xt+1=Axt+But,x0=xinit问题: 选取u0,u1,…u_0,u_1,\ldotsu0,u1,…使得：x0,x1,…x_0,x_1,\ldotsx0,x1,…较小，获得较好的状态控制；u0,u1,…u_0,u_1,\ldotsu0,u1,…较小，使用较少
复制链接

扫一扫