ilqr原理及公式推导(更新ing)

种植园牛马

已于 2024-07-13 11:48:36 修改

阅读量249

点赞数 7

分类专栏：自动驾驶规划控制专栏文章标签：算法人工智能机器学习自动驾驶

于 2024-07-12 23:35:44 首次发布

本文链接：https://blog.csdn.net/qq_36497771/article/details/140370616

版权

自动驾驶规划控制专栏专栏收录该内容

2 篇文章 0 订阅

订阅专栏

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

ilqr原理及公式推导

前言
- LQR（Linear Quadratic Regulator）
- iLQR（Iterative Linear Quadratic Regulator）
一、lqr问题求解
总结

注：以后内容包含许多个人理解，如有错误，疏漏欢迎讨论指正

前言

LQR（线性二次调节器）和 iLQR（迭代线性二次调节器）都是用于控制系统优化的算法，但它们在适用范围和具体实现上有显著区别。

LQR（Linear Quadratic Regulator）

线性系统：LQR假设系统的动力学是线性的，描述如下:

$x_{t+1} = Ax_t+Bu_t$
其中 $x$ 是状态向量， $u$ 是控制输入， $A$ 和 $B$ 是系统矩阵。

二次性能指标:
$\int_{0}^{\infty} \left( x^T Q x + u^T R u \right) \, dt$
其中 $Q$ 和 $R$ 是权重矩阵，用于平衡状态偏离和控制输入的权重。

iLQR（Iterative Linear Quadratic Regulator）

非线性系统：iLQR适用于非线性系统，描述如下：
$x_{t+1} = f(x_t,u_t)$
其中 $f$ 是系统的非线性函数。

总结

LQR 适用于线性系统，并且可以直接求解获得解析解。
iLQR 适用于非线性系统，通过迭代的方式不断逼近最优解，每次迭代中需要线性化系统并求解LQR子问题。
也就是把非线性的问题通过数学方法变成线性问题在求解，因此后面先介绍如何求解LQR问题。

一、lqr问题求解

1. 问题定义

$\min_{u_1,\ldots,u_T,x_1,\ldots,x_T}\sum_{t=1}^Tc(x_t,u_t)\text{ s.t }x_t=f(x_{t-1},u_{t-1}) \tag{1}$
其中 $c(x_t,u_t)$ 为代价函数， $f$ 为系统函数，通过系统函数公式(1)可以写成下式：
$\min\limits_{u_1,\dots,u_T}c(x_1,u_1)+c(f(x_1,u_1),u_2)+\dots+c(f(f(\dots)\dots),u_T) \tag{2}$
其中lqr是线性二次调节器，其系统方程为线性，其代价函数为二次型，因此：
${f(\mathbf{x}_t,\mathbf{u}_t)=\mathbf{F}_t\left[\begin{array}{c}\mathbf{x}_t\\\mathbf{u}_t\end{array}\right]+\mathbf{f}_t} \tag{3}$

$c(\mathbf{x}_t,\mathbf{u}_t)=\frac{1}{2}\left[\begin{array}{c}\mathbf{x}_t\\\mathbf{u}_t\end{array}\right]^T\mathbf{C}_t\left[\begin{array}{c}\mathbf{x}_t\\\mathbf{u}_t\end{array}\right]+\left[\begin{array}{c}\mathbf{x}_t\\\mathbf{u}_t\end{array}\right]^T\mathbf{c}_t \tag{4}$
为了便于后续公式推导，先声明一些概念

$Q(x_t,u_t)$ 是在状态 $x_t$ 和动作 $u_t$ 下的代价加上之后所有时间步长的最优代价之和。假设未来的策略都是最优的。 $Q(x_t,u_t)=\ell(x_t,u_t)+V(x_{t+1})$ ,其中 $\ell(x_t,u_t)$ 为当前阶段的代价
$V(x_t)$ 是在状态 $x_t$ 下最优策略的代价函数，即所有可能动作中最小的$Q(x_t,u_t)
同时

$V(x_t)= minQ(x_t,u_t)$

4. 公式推导

从 $u_T$ 开始向后迭代，此时 $Q(x_t,u_t)$ 为：
$Q(\mathbf{x}_T,\mathbf{u}_T)=\frac{1}{2}\left[\begin{array}{c}\mathbf{x}_T\\\mathbf{u}_T\end{array}\right]^T\mathbf{C}_T\left[\begin{array}{c}\mathbf{x}_T\\\mathbf{u}_T\end{array}\right]+\left[\begin{array}{c}\mathbf{x}_T\\\mathbf{u}_T\end{array}\right]^T\mathbf{c}_T \tag{5}$
此时的代价矩阵 $\mathbf{C}_T=\left[\begin{array}{cc}\mathbf{C}_{\mathbf{x}_T,\mathbf{x}_T}&\mathbf{C}_{\mathbf{x}_T,\mathbf{u}_T}\\\mathbf{C}_{\mathbf{u}_T,\mathbf{x}_T}&\mathbf{C}_{\mathbf{u}_T,\mathbf{u}_T}\end{array}\right]$ , $\mathbf{c}_T=\left\lfloor\begin{array}{c}\mathbf{c}_{\mathbf{x}_T}\\\mathbf{c}_{\mathbf{u}_T}\end{array}\right\rfloor$

为了寻找最优控制 $u_T，Q(x_T,u_T)$ 对 $u_T$ 求导并令其等于 $0$ 可得到：
$\nabla_{\mathbf{u}_T}Q(\mathbf{x}_T,\mathbf{u}_T)=\mathbf{C}_{\mathbf{u}_T,\mathbf{x}_T}\mathbf{x}_T+\mathbf{C}_{\mathbf{u}_T,\mathbf{u}_T}\mathbf{u}_T+\mathbf{c}_{\mathbf{u}_T}^T=0 \tag{6}$
此时可以解出 $\mathbf{u}_T=-\mathbf{C}_{\mathbf{u}_T,\mathbf{u}_T}^{-1}\left(\mathbf{C}_{\mathbf{u}_T,\mathbf{x}_T}\mathbf{x}_T+\mathbf{c}_{\mathbf{u}_T}\right)$ ，此时令 $\mathbf{K}_T=-\mathbf{C}_{\mathbf{u}_T,\mathbf{u}_T}^{-1}\mathbf{C}_{\mathbf{u}_T,\mathbf{x}_T}$ , $\mathbf{k}_T=-\mathbf{C}_{\mathbf{u}_T,\mathbf{u}_T}^{-1}\mathbf{c}_{\mathbf{u}_T}$ ,则最优控制 $u_T$ 可以写成:
$\mathbf u_T=\mathbf K_T\mathbf x_T+\mathbf k_T \tag{7}$
前面定义中: $V(x_t)= minQ(x_t,u_t)$ ,因此用最优 $u_T$ 替换 $Q(x_t,u_t)$ 中的 $u_t$ ，此时我们可以得到 $V_T$ 为:
$V\left(\mathbf{x}_{T}\right)=\text { const }+\frac{1}{2}\left[\begin{array}{c} \mathbf{x}_{T} \\ \mathbf{K}_{T} \mathbf{x}_{T}+\mathbf{k}_{T} \end{array}\right]^{T} \mathbf{C}_{T}\left[\begin{array}{c} \mathbf{x}_{T} \\ \mathbf{K}_{T} \mathbf{x}_{T}+\mathbf{k}_{T} \end{array}\right]+\left[\begin{array}{c} \mathbf{x}_{T} \\ \mathbf{K}_{T} \mathbf{x}_{T}+\mathbf{k}_{T} \end{array}\right]^{T} \mathbf{c}_{T} \tag{8}$
将公式8展开可以得到：
$V(\mathbf{x}_{T})=\frac{1}{2}\mathbf{x}_{T}^{T}\mathbf{C}_{\mathbf{x}_{T},\mathbf{x}_{T}}\mathbf{x}_{T}+\frac{1}{2}\mathbf{x}_{T}^{T}\mathbf{C}_{\mathbf{x}_{T},\mathbf{u}_{T}}\mathbf{K}_{T}\mathbf{x}_{T}+\frac{1}{2}\mathbf{x}_{T}^{T}\mathbf{K}_{T}^{T}\mathbf{C}_{\mathbf{u}_{T},\mathbf{x}_{T}}\mathbf{x}_{T}+\frac{1}{2}\mathbf{x}_{T}^{T}\mathbf{K}_{T}^{T}\mathbf{C}_{\mathbf{u}_{T},\mathbf{u}_{T}}\mathbf{K}_{T}\mathbf{x}_{T}+\\\mathbf{x}_{T}^{T}\mathbf{K}_{T}^{T}\mathbf{C}_{\mathbf{u}_{T},\mathbf{u}_{T}}\mathbf{k}_{T}+\frac{1}{2}\mathbf{x}_{T}^{T}\mathbf{C}_{\mathbf{x}_{T},\mathbf{u}_{T}}\mathbf{k}_{T}+\mathbf{x}_{T}^{T}\mathbf{c}_{\mathbf{x}_{T}}+\mathbf{x}_{T}^{T}\mathbf{K}_{T}^{T}\mathbf{c}_{\mathbf{u}_{T}}+\mathrm{const} \tag{9}$
令 $\mathbf{V}_T=\mathbf{C}_{\mathbf{x}_T,\mathbf{x}_T}+\mathbf{C}_{\mathbf{x}_T,\mathbf{u}_T}\mathbf{K}_T+\mathbf{K}_T^T\mathbf{C}_{\mathbf{u}_T,\mathbf{x}_T}+\mathbf{K}_T^T\mathbf{C}_{\mathbf{u}_T,\mathbf{u}_T}\mathbf{K}_T$ ,同时 $\mathbf{v}_T=\mathbf{c}_{\mathbf{x}_T}+\mathbf{C}_{\mathbf{x}_T,\mathbf{u}_T}\mathbf{k}_T+\mathbf{K}_T^T\mathbf{C}_{\mathbf{u}_T}+\mathbf{K}_T^T\mathbf{C}_{\mathbf{u}_T,\mathbf{u}_T}\mathbf{k}_T$ ，因此公式9可以简化为:
$V(\mathbf{x}_T)=\mathrm{const}+\frac{1}{2}\mathbf{x}_T^T\mathbf{V}_T\mathbf{x}_T+\mathbf{x}_T^T\mathbf{v}_T \tag{10}$
继续向前迭代到 $T - 1$ 步，此时：
$Q(\mathbf{x}_{T-1},\mathbf{u}_{T-1})=\text{const}+\frac{1}{2}\left[\begin{array}{c}\mathbf{x}_{T-1}\\\mathbf{u}_{T-1}\end{array}\right]^T\mathbf{C}_{T-1}\left[\begin{array}{c}\mathbf{x}_{T-1}\\\mathbf{u}_{T-1}\end{array}\right]+\left[\begin{array}{c}\mathbf{x}_{T-1}\\\mathbf{u}_{T-1}\end{array}\right]^T\mathbf{c}_{T-1}+V(f(\mathbf{x}_{T-1},\mathbf{u}_{T-1})) \tag{11}$
其中第二部分为当前状态代价，第三部分为最佳cost-to-go，即当前到目标状态 $x_T$ 的累计成本，同时根据系统函数 $x_T=f(x_{T-1},u_{T-1})$ ,因此第三部分也就是公式10.
根据前文描述我们可以知道系统函数为： $\left.f(\mathbf{x}_{T-1},\mathbf{u}_{T-1})=\mathbf{x}_T=\mathbf{F}_{T-1}\left[\begin{array}{c}\mathbf{x}_{T-1}\\\mathbf{u}_{T-1}\end{array}\right.\right]+\mathbf{f}_{T-1}$ ,因此 $V(x_T)$ 可以表示为：
$\left.V(\mathbf{x}_T)=\mathrm{const}+\frac{1}{2}\left[\begin{array}{c}\mathbf{x}_{T-1}\\\mathbf{u}_{T-1}\end{array}\right.\right]^T\mathbf{F}_{T-1}^T\mathbf{V}_T\mathbf{F}_{T-1}\left[\begin{array}{c}\mathbf{x}_{T-1}\\\mathbf{u}_{T-1}\end{array}\right]+\left[\begin{array}{c}\mathbf{x}_{T-1}\\\mathbf{u}_{T-1}\end{array}\right]^T\mathbf{F}_{T-1}^T\mathbf{V}_T\mathbf{f}_{T-1}+ \\ \left[\begin{array}{c}\mathbf{x}_{T-1}\\\mathbf{u}_{T-1}\end{array}\right]^T\mathbf{F}_{T-1}^T\mathbf{v}_T \tag{12}$
因此公式(11)可以写成：
$Q(\mathbf{x}_{T-1},\mathbf{u}_{T-1})=\mathrm{const}+\frac{1}{2}\left[\begin{array}{c}\mathbf{x}_{T-1}\\\mathbf{u}_{T-1}\end{array}\right]^T\mathbf{Q}_{T-1}\left[\begin{array}{c}\mathbf{x}_{T-1}\\\mathbf{u}_{T-1}\end{array}\right]+\left[\begin{array}{c}\mathbf{x}_{T-1}\\\mathbf{u}_{T-1}\end{array}\right]^T\mathbf{q}_{T-1}$
其中 $\mathbf{Q}_{T-1}=\mathbf{C}_{T-1}+\mathbf{F}_{T-1}^T\mathbf{V}_T\mathbf{F}_{T-1}$ ,同时 $\mathbf{q}_{T-1}=\mathbf{c}_{T-1}+\mathbf{F}_{T-1}^T\mathbf{V}_T\mathbf{f}_{T-1}+\mathbf{F}_{T-1}^T\mathbf{v}_T$
此时我们已经将 $Q(x_{T-1}，u_{T-1})$ 用 $x_{T-1}，u_{T-1}$ 表示出来，此时 $Q(x_{T-1}，u_{T-1})$ 对 $u_{T-1}$ 求导并令其为0则:
$\nabla_{\mathbf{u}_{T-1}}Q(\mathbf{x}_{T-1},\mathbf{u}_{T-1})=\mathbf{Q}_{\mathbf{u}_{T-1},\mathbf{x}_{T-1}}\mathbf{x}_{T-1}+\mathbf{Q}_{\mathbf{u}_{T-1},\mathbf{u}_{T-1}}\mathbf{u}_{T-1}+\mathbf{q}_{\mathbf{u}_{T-1}}^T=0 \tag{13}$
此时可以结出最优 $\mathbf u_{T-1}=\mathbf K_{T-1}\mathbf x_{T-1}+\mathbf k_{T-1}$ ,其中 $\mathbf{K}_{T-1}=-\mathbf{Q}_{\mathbf{u}_{T-1},\mathbf{u}_{T-1}}^{-1}\mathbf{Q}_{\mathbf{u}_{T-1},\mathbf{x}_{T-1}}$ ,同时 $\mathbf{k}_{T-1}=-\mathbf{Q}_{\mathbf{u}_{T-1},\mathbf{u}_{T-1}}^{-1}\mathbf{q}_{\mathbf{u}_{T-1}}$

不断向前迭代直到 $t = 1$
$\begin{aligned} \mathrm{for}& t=T\text{ to 1:} \\ &\mathbf{Q}_{t}=\mathbf{C}_{t}+\mathbf{F}_{t}^{T}\mathbf{V}_{t+1}\mathbf{F}_{t} \\ &\mathbf{q}_t=\mathbf{c}_t+\mathbf{F}_t^T\mathbf{V}_{t+1}\mathbf{f}_t+\mathbf{F}_t^T\mathbf{v}_{t+1} \\ &Q(\mathbf{x}_{t},\mathbf{u}_{t})=\mathrm{const}+\frac{1}{2}\left[\begin{array}{c}\mathbf{x}_{t}\\\mathbf{u}_{t}\end{array}\right]^{T}\mathbf{Q}_{t}\left[\begin{array}{c}\mathbf{x}_{t}\\\mathbf{u}_{t}\end{array}\right]+\left[\begin{array}{c}\mathbf{x}_{t}\\\mathbf{u}_{t}\end{array}\right]^{T}\mathbf{q}_{t} \\ &\mathbf{u}_{t}\leftarrow\arg\operatorname*{min}_{\mathbf{u}_{t}}Q(\mathbf{x}_{t},\mathbf{u}_{t})=\mathbf{K}_{t}\mathbf{x}_{t}+\mathbf{k}_{t} \\ &\mathbf{K}_t=-\mathbf{Q}_{\mathbf{u}_t,\mathbf{u}_t}^{-1}\mathbf{Q}_{\mathbf{u}_t,\mathbf{x}_t} \\ &\mathbf{k}_{t}=-\mathbf{Q}_{\mathbf{u}_{t},\mathbf{u}_{t}}^{-1}\mathbf{q}\mathbf{u}_{t} \\ &\mathbf{V}_{t}=\mathbf{Q}_{\mathbf{x}_{t},\mathbf{x}_{t}}+\mathbf{Q}_{\mathbf{x}_{t},\mathbf{u}_{t}}\mathbf{K}_{t}+\mathbf{K}_{t}^{T}\mathbf{Q}_{\mathbf{u}_{t},\mathbf{x}_{t}}+\mathbf{K}_{t}^{T}\mathbf{Q}_{\mathbf{u}_{t},\mathbf{u}_{t}}\mathbf{K}_{t} \\ &\mathbf{v}_{t}=\mathbf{q}_{\mathbf{x}_{t}}+\mathbf{Q}_{\mathbf{x}_{t},\mathbf{u}_{t}}\mathbf{k}_{t}+\mathbf{K}_{t}^{T}\mathbf{Q}_{\mathbf{u}_{t}}+\mathbf{K}_{t}^{T}\mathbf{Q}_{\mathbf{u}_{t},\mathbf{u}_{t}}\mathbf{k} \\ &V(\mathbf{x}_{t})=\mathrm{const}+\frac{1}{2}\mathbf{x}_{t}^{T}\mathbf{V}_{t}\mathbf{x}_{t}+\mathbf{x}_{t}^{T}\mathbf{v}_{t} \end{aligned} \tag{14}$
此时我们可以求出每一个阶段最优的 $u_t$ ,同时我们知道初值 $x_0$ ,因此我们又可以正向迭代求出每一个状态x
$\begin{aligned} \text{for }t & =1\text{ to }T{:}\\ \mathbf{u}_{t} & =\mathbf{K}_{t}\mathbf{x}_{t}+\mathbf{k}_{t}\\ \mathbf{x}_{t+1} & =f(\mathbf{x}_{t},\mathbf{u}_{t}) \end{aligned} \tag{15}$

5.个人理解

写到这里lqr的解法已经写完了，但是当我第一次看公式推到的时候并没有明白 $Q_t$ 的具体形式,同时 $Q_{u_t,u_t},Q_{x_t,x_t},Q_{x_t,u_t}$ 的具体形式是什么，经过我向我司新来的X博士多番询问，最终搞明白了。
首先我们做出如下定义：
$q_x=\frac{\partial Q(x_t,u_t)}{\partial x_t}$
$q_u=\frac{\partial Q(x_t,u_t)}{\partial u_t}$
$q_{xx}=\frac{\partial^2 Q(x_t,u_t)}{\partial ^2x_t}$
$q_{uu}=\frac{\partial^2 Q(x_t,u_t)}{\partial ^2u_t}$
$q_{xu}=\frac{\partial^2 Q(x_t,u_t)}{\partial x_t\partial u_t}$
下面我仅以 $q_{xu}$ 为例进行详细的推导：
$\begin{aligned} Q(x_t,u_t)& =\ell(x_t,u_t)+V(x_{t+1}) \\ & =\ell(x_t,u_t)+V(f(x_t,u_t)) \end{aligned}$
根据链式法则：
$\begin{aligned} q_x&=\frac{\partial Q(x_t,u_t)}{\partial x_t} \\ &= \frac{\partial\ell(x_t,u_t)}{\partial x_t}+\frac{\partial V(f(x_t,u_t))}{\partial x_t} \\ &= \ell_x+\frac{\partial V}{\partial f}\cdot\frac{\partial f(x_t,u_t)}{\partial x_t} \end{aligned}$
其中 $\frac{\partial V}{\partial f}$ 为 $V$ 对 $f$ 的梯度，即为 $v_x$ , $\frac{\partial f(x_t,u_t)}{\partial x_t}$ 为 $f$ 对 $x_t$ 的雅可比矩阵即为 $f_x$
因此:
$q_x = \ell_x+f_x^{T}v_x$
然后
$\begin{aligned} q_{xu}&=\frac{\partial}{\partial u_t}( \ell_x+f_x^{T}v_x) \\ & =\ell_{xu}+\mathbf{f}_u^T\mathbf{v}_{xx}\mathbf{f}_x \end{aligned}$
因此所有的结果为：
$\begin{aligned} &1. q_{x}=\ell_{x}+\mathbf{f}_{x}^{T}\mathbf{v}_{x} \\ &2. q_{u}=\ell_{u}+\mathbf{f}_{u}^{T}\mathbf{v}_{x} \\ &3. q_{xx}=\ell_{xx}+\mathbf{f}_{x}^{T}\mathbf{v}_{xx}\mathbf{f}_{x} \\ &4 .q_{uu}=\ell_{uu}+\mathbf{f}_{u}^{T}\mathbf{v}_{xx}\mathbf{f}_{u}+\mu\mathbf{I} \\ &5. q_{xu}=\ell_{xu}+\mathbf{f}_u^T\mathbf{v}_{xx}\mathbf{f}_x \end{aligned}$
其中：
$\mathbf{v}_{x}=q_{x}+K_{t}^{T}q_{uu}k_{t}+K_{t}^{T}q_{u}+q_{ux}^{T}k_{t}\\\mathbf{v}_{xx}=q_{xx}+K_{t}^{T}q_{uu}K_{t}+K_{t}^{T}q_{ux}+q_{ux}^{T}K_{t}$

总结

还没写完，后面会有基于ros，ilqr路径规划代码实现，尽情期待！！！！！！！！！！！！！！！！！！！！！！

种植园牛马

关注

7
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
ilqr原理及公式推导(更新ing)

LQR（线性二次调节器）和 iLQR（迭代线性二次调节器）都是用于控制系统优化的算法，但它们在适用范围和具体实现上有显著区别。min⁡u1uTx1xT∑t1Tcxtuts.txtfxt−1ut−1(1)\tag{1}u1uTx1xTmint1∑Tcxtuts.txtfxt−1ut−11其中cxtutc(x_t,u_t)c。
复制链接

扫一扫