2023-09-25-连续系统的LQR推导

xinyu_khan

已于 2024-02-21 17:40:50 修改

阅读量971

点赞数 24

分类专栏：知识分享文章标签：算法机器人自动驾驶自动化

于 2024-02-21 16:38:01 首次发布

本文链接：https://blog.csdn.net/hxy_1993_08_18/article/details/136215228

版权

连续系统的LQR推导

连续时域上的DP（Dynamic Programming）

首先考虑如下形式的优化问题：

$\begin{aligned} &&\min J = h(x(t_f),t_f) + \int_{t_0}^{t_f}g(x(t), u(t), t)dt \\ &\text{subject to} \\ &&\dot{x} &= a(x, u, t) \\ &&x(t_0) &= x_0 \\ &&m(x(t_f), t_f) &= 0 \\ &&u(t) &\in \mathscr{U} \end{aligned} \tag{1}$

其中 $t_f$ 是终止时间， $t_0$ 是起始时间， $m(x(t_f),t_f)=0$ 是终止条件（可能不唯一，因为 $m$ 的值域是一个向量）， $\mathscr{U}$ 表示对于 $u (t)$ 的约束。

这个问题的解决的最终形式是一个非线性偏微分方程（Nonlinear Partial Differential Equation），被称作Hamilton-Jacobi-Bellman方程（HJB），下面进行推导。

现在我们设 $t_0, t_f]$ 区间内的任意一个时间点 $t$ ，我们考虑 $t,t_f]$ 这个区间内的代价函数，其中 $\tau \in [t, t_f]$ ，那么有如下关系：

$u(\tau)) = h(x(t_f), t_f) + \int_{t}^{t_f}g(x(\tau), u(\tau), \tau)d\tau \tag{2}$

显然我们把区间 $t,t_f]$ 分成两个区间来考虑： $[t,t+\Delta t]$ 和 $[t+\Delta t,t_f]$ 。如下：

$\begin{aligned} \hat{J}(x(t), t) &= \underset{u(\tau)\in\mathscr{U},\tau\in[t, t_f]}{\min}J(x(t),t,u(\tau)) \\ &=\underset{u(\tau)\in\mathscr{U},\tau\in[t, t_f]}{\min}\left\{h(x(t_f), t_f)+\int_{t}^{t_f}g(x(\tau),u(\tau), \tau)d\tau\right\}\\ &=\underset{u(\tau)\in\mathscr{U},\tau\in[t, t_f]}{\min}\left\{h(x(t_f),t_f)+\int_{t}^{t+\Delta{t}}g(x(\tau), u(\tau),\tau)d\tau+\int_{t+\Delta{t}}^{t_f}g(x(\tau), u(\tau),\tau)d\tau\right\} \end{aligned} \tag{4}$

我们定义 $[t+\Delta t,t_f]$ 范围内的最优代价函数：

$\begin{aligned} \hat{J}(x(t+\Delta{t}), t+\Delta{t}) &=\underset{u(\tau)\in\mathscr{U},\tau\in[t+\Delta{t}, t_f]}{\min}\left\{h(x(t_f),t_f)+\int_{t+\Delta{t}}^{t_f}g(x(\tau), u(\tau),\tau)d\tau\right\} \end{aligned} \tag{5}$

于是有：

$\begin{aligned} \hat{J}(x(t), t) &=\underset{u(\tau)\in\mathscr{U},\tau\in[t, t+\Delta{t}]}{\min}\left\{\int_{t}^{t+\Delta{t}}g(x(\tau), u(\tau),\tau)d\tau+\hat{J}(x(t+\Delta{t}), t+\Delta{t}) \right\} \end{aligned} \tag{6}$