浅谈线性定常系统最优跟踪问题——Optimal Tracking of LTI Systems

止于至玄

已于 2023-09-27 15:43:00 修改

阅读量1.4k

点赞数 1

分类专栏： Robotics 文章标签：线性代数

于 2021-01-21 10:06:40 首次发布

本文链接：https://blog.csdn.net/philthinker/article/details/112916984

版权

Robotics 专栏收录该内容

10 篇文章 8 订阅

订阅专栏

本文简单介绍下线性定常系统（Linear Time-Invariant System）的最优跟踪问题，主要介绍L-Q问题(LQT)。

文章目录

离散时间系统

本文主要讨论跟踪（Tracking）问题，不详细讨论调节（Regulation）问题，且本文中均假设参考轨迹在任意时刻已知，即不讨论伺服问题和模型跟踪问题。

离散时间系统

姑且不考虑观测器问题，假设系统状态完全可得，考虑如下线性定常离线时间系统： $\xi_{t+1} = A\xi_{t} + Bu_{t}$ 或者展开写成更清晰的形式： $\begin{bmatrix} x_{t+1} \\ \dot{x}_{t+1} \end{bmatrix} = \begin{bmatrix} I & \Delta t\cdot I \\ \mathbf{0} & I \end{bmatrix} \begin{bmatrix} x_{t} \\ \dot{x}_{t} \end{bmatrix} + \begin{bmatrix} \mathbf{0} \\ \Delta t\cdot I \end{bmatrix}u_t$ 其中， $x_{t} \in\mathbb{R}^{D}, \xi_{t} \in \mathbb{R}^{CD},u_{t}\in\mathbb{R}^{D}$ .

批处理方法（Batch Form）

那么，定义LQ指标为：
$(\hat{\xi}_{T} - \xi_{T})^{\top}Q_{T}(\hat{\xi}_{T} - \xi_{T}) + \sum_{t=1}^{T-1}\left( (\hat{\xi}_{t} - \xi_{t})^{\top}Q_{t}(\hat{\xi}_{t} - \xi_{t}) + u^{\top}_{t}R_{t}u_{t} \right)$ 其中 $Q$ 为半正定矩阵， $R$ 为正定矩阵。将上式写成更紧凑形式： $(\hat{\xi} - \xi)^{\top}\tilde{Q}(\hat{\xi} - \xi)+U^{\top}\tilde{R}U$ 其中 $\xi \in \mathbb{R}^{TCD}, U\in\mathbb{R}^{(T-1)D}$ 分别是状态和输入向量， $\hat{\xi}\in\mathbb{R}^{TCD}$ 为参考状态，可以看出 $\tilde{Q} = diag(Q_{1},Q_{2},\dots,Q_{T}) \in \mathbb{R}^{TCD \times TCD}$ 且 $\tilde{R}=diag(R_{1}, R_{2},\dots,R_{T})\in \mathbb{R}^{(T-1)CD \times (T-1)CD}$
对于离散时间系统，我们可以将系统状态序列写成如下形式： $\begin{aligned} \xi_{2} &= A\xi_{1} + Bu_{1} \\ \xi_{3} &= A(A\xi_{1} + Bu_{1}) + Bu_{2} \\ &\vdots \\ \xi_{T} &= A^{T}\xi_{1} + A^{T-1}Bu_{1}+A^{T-2}Bu_{2} + \cdots Bu_{T} \end{aligned}$ 如此，我们可以将 $1\sim T$ 时刻所有的状态及输入写称紧凑形式： $\begin{bmatrix} \xi_{1} \\ \xi_{2} \\ \xi_{3} \\ \vdots \\ \xi_{T} \end{bmatrix} = \begin{bmatrix} I \\ A \\ A^{2} \\ \vdots \\ A^{T} \end{bmatrix}\xi_{1} + \begin{bmatrix} \mathbf{0} & \mathbf{0} & \cdots & \mathbf{0} \\ B & \mathbf{0} & \cdots & \mathbf{0} \\ AB & B & \cdots & \mathbf{0} \\ \vdots & \vdots & \ddots & \vdots \\ A^{T-1}B & A^{T-2}B & \cdots & B \end{bmatrix} \begin{bmatrix} u_{1} \\ u_{2} \\ \vdots \\ u_{T-1} \end{bmatrix}$ 即 $\xi = S^{\xi}\xi_{1} + S^{u}U$ 可见 $S^{\xi}\in\mathbb{R}^{TCD\times CD}, S^{u}\in\mathbb{R}^{TCD\times (T-1)D}$ 。此时，我们可以将上述公式代入到优化指标函数中： $(\hat{\xi}-S^{\xi}\xi_{1}-S^{u}U)^{\top}\tilde{Q}(\hat{\xi}-S^{\xi}\xi_{1}-S^{u}U)+U^{\top}\tilde{R}U$ 如此，问题转换成了一个无约束凸二次优化问题： $argmin_{U} C$ 利用梯度下降法，对 $U$ 求梯度并令其为零得： $U^{*} = ({S^{u}}^{\top}\tilde{Q}S^{u}+\tilde{R})^{-1}{S^{u}}^{\top}\tilde{Q}(\hat{\xi}-S^{\xi}\xi_{1})$ 这其实等同于一个基于岭回归的最小二乘参数估计。

迭代方法（Iterative Form）

当然，我们亦可以采用迭代方法求解该最优跟踪问题。方便起见，我们定义LQ指标为： $\frac{1}{2}(\hat{\xi}_{T} - \xi_{T})^{\top}Q_{T}(\hat{\xi}_{T} - \xi_{T}) + \frac{1}{2}\sum_{t=1}^{T-1}\left( (\hat{\xi}_{t} - \xi_{t})^{\top}Q_{t}(\hat{\xi}_{t} - \xi_{t}) + u_{t}^{\top}Ru_{t} \right)$ 各个变量定义与前文无异。加入系数单纯为了推导方便。此时，利用动态规划方法，我们可以得到离散线性系统的最优跟踪控制律为： $u_{t} = -K_{t}^{\xi}\xi_{t}-K_{t}^{\beta}\beta_{t}$ 此时最优的性能指标为： $C^{*} = \frac{1}{2}\xi_{0}^{\top}P_{0}\xi_{0} + \xi_{0}^{\top}\beta_{0}+\frac{1}{2}\alpha_{0}$
其中每一项迭代过程如下：

矩阵 $P$ ： $\begin{aligned} P_{T} &= Q_{T} \\ P_{t} &= A^{\top}P_{t+1}A - A^{\top}P_{t+1}B(R_{t}+B^{\top}P_{t+1}B)^{-1}B^{\top}P_{t+1}A+Q_{t} \end{aligned}$
矩阵 $K^{\xi}$ ： $K^{\xi}_{t} = (R_{t}+B^{\top}P_{t+1}B)^{-1}B^{\top}P_{t+1}A$
矩阵 $K^{\beta}$ ： $K^{\beta}_{t} = (R_{t}+B^{\top}P_{t+1}B)^{-1}B^{\top}$
向量 $\beta$ ： $\begin{aligned} \beta_{T} &= -Q_{T}\hat{\xi}_{T} \\ \beta_{t} &= (A-BK_{t}^{\xi})^{\top}\beta_{t+1}-Q_{t}\hat{\xi}_{t} \end{aligned}$
向量 $\alpha$ ： $\begin{aligned} \alpha_{T} &= \hat{\xi}_{T}^{\top} Q_{T}\hat{\xi}_{T} \\ \alpha_{t} &= \alpha_{t+1} + \hat{\xi}_{t}^{\top}Q_{t}\hat{\xi}_{t}-\beta_{t+1}^{\top}{K_{t}^{\beta}}^{\top}(R_{t}+B^{\top}P_{t+1}B)K^{\beta}_{t}\beta_{t+1} \end{aligned}$

所有符号系统来源于附录引文1，推导从略。
有些资料中还将其写成： $u_{t} = K_{t}(\hat{\xi}_{t} - \xi_{t}) + f_{t}$ 即反馈项+前馈项。其中参数定义如下：

矩阵 $K$ ： $K_{t} = (B^{\top}P_{t}B+R_{t})^{-1}B^{\top}P_{t}A$ 其中 $P$ 的定义与前一种方法相同。
前馈向量 $f_{t}$ ： $f_{t} = -(B^{\top}P_{t}B+R_{t})^{-1}B^{\top}(P_{t}(A\hat{\xi}_{t} - \hat{\xi}_{t})+d_{t})$
向量 $d_{t}$ ： $d_{t} = (A^{\top}-A^{\top}P_{t+1}B(B^{\top}P_{t+1}B+R_{t})^{-1}B^{\top})(P_{t+1}(A\hat{\xi}_{t} - \hat{\xi}_{t+1})+d_{t+1})$ 其中 $d_{T} = 0$ 。

LQT与多维高斯分布

假定要跟着的任务轨迹满足多维高斯分布，即 $\xi_{t}\sim\mathcal{N}(\mu_{t}, \Sigma_{t})$ 。那么对于上述LQT问题，我们可以取： $\hat{\xi}_{t} = \mu_{t}, \quad Q_{t} = \Sigma_{t}^{-1}$ 其它不变。
此时，对于批处理LQT方法，目标函数变为： $\left( \mu - S^{\xi}\xi_{1}-S^{u}U \right)^{\top}\Sigma^{-1}\left( \mu - S^{\xi}\xi_{1}-S^{u}U \right) + U^{\top}\tilde{R}U$ 其中 $\mu \in\mathbb{R}^{TCD}, \Sigma\in\mathbb{R}^{(TCD)\times(TCD)}$ 。此时控制信号为： $U^{*} = ({S^{u}}^{\top}\Sigma^{-1}S^{u}+\tilde{R})^{-1}{S^{u}}^{\top}\Sigma^{-1}(\mu-S^{\xi}\xi_{1})$

对于高斯轨迹分布，LQT控制器还可以拓展为多坐标系下的任务参数化（Task-Parameterized）LQT控制器。假定系统中存在 $P$ 个坐标系，此时我们可以将目标函数拓展为： $\sum_{j=1}^{P}\left( \mu^{(j)} - \xi \right)^{\top}{\Sigma^{(j)}}^{-1}\left( \mu^{(j)} - \xi \right) + U^{\top}\tilde{R}U$ 其中 $\mu^{(j)}, \Sigma^{(j)}$ 均是定义在第 $j$ 个坐标系下的均值与协方差。求解此问题，等同于首先求解： $\mu = \argmin_{\xi}\sum_{j=1}^{P}\left( \mu^{(j)} - \xi \right)^{\top}{\Sigma^{(j)}}^{-1}\left( \mu^{(j)} - \xi \right)$ 然后求解： $U^{*} = \argmin_{U}(\mu - \xi)^{\top}\Sigma^{-1}(\mu - \xi)+U^{\top}\tilde{R}U$ 即首先求最优轨迹分布，然后就最优控制信号。对于批处理方式，可求得最优控制信号为： $U^{*} = \left( {S^{u}}^{\top}\Sigma^{-1}S^{u} + \tilde{R} \right)^{-1}{S^{u}}^{\top}\Sigma^{-1}\left( \mu - S^{\xi}\xi_{1} \right)$ 其中： $\Sigma^{-1} = \sum_{j=1}^{P}{\Sigma^{(j)}}^{-1},\quad \mu = \Sigma\sum_{j=1}^{P}{\Sigma^{(j)}}^{-1}\mu^{(j)}$

感谢钟宜生——《最优控制》清华大学出版社，2015年。
Thanks Sylvein Calinon, A Tutorial on Task-Parameterized Movement Learning and Retrieval in International Service Robotis, 2016.
Thanks Sylvein Calinon, et al, Learning Control. in Humanoid Robotics: a Reference, 2019.