变分法求解最优控制问题推导思路

Zeror_

已于 2022-02-08 10:20:10 修改

阅读量3.1k

点赞数 5

分类专栏：最优控制文章标签：线性代数动态规划

于 2022-02-07 14:22:46 首次发布

本文链接：https://blog.csdn.net/dela1024/article/details/122808224

版权

最优控制专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文详细介绍了最优控制问题，包括问题定义、组成及描述，并探讨了控制问题与变分法的关系。通过引入拉格朗日乘子，讨论了如何使用变分法解决具有等式约束的积分型和末值型目标函数问题，同时阐述了末端时刻固定和自由两种情况下的处理方法。最后，总结了求解最优控制问题的关键步骤。

摘要由CSDN通过智能技术生成

1. 最优控制问题

1.1 问题定义

根据已建立的被控对象的数学模型，从可供选择的容许控制集U中，寻求一个控制向量 $\mathbf{u}(t)$ ，使被控系统在时间域内从初始状态转移到目标集时，性能泛函取极值。
从数学观点来看，最优控制研究的问题是求解一类带有约束的泛函极值问题。

1.2 问题组成及描述

除了目标函数是我们需要求解的，其他都可以认为是约束或者条件。

系统数学方程（约束条件）
被控系统的数学模型通常用定义在某时间间隔的状态方程来表示。系统状态 $\mathbf{x} \in \mathbb{R}^{n}$ , 控制向量 $\mathbf{u} \in \mathbb{R}^{m}$ ，状态方程一般表示为：
$\dot{\mathbf{x}}(t)=f[\mathbf{x}(t), \mathbf{u}, t], t \in\left[t_{0}, t_{f}\right]$
边界条件
控制问题初始时刻 $t_{0}$ 和状态 $\mathbf{x}\left(t_{0}\right)$ 一般是固定的。可以表示为 $\mathbf{x}(t_{0})=\mathbf{x}_{0}$ 而末端时刻 $t_{f}$ 和状态 $\mathbf{x}\left(t_{f}\right)$ 可能是固定、自由和受约束的，统一表示为目标集。固定时其维度为 $r = 1$ ，自由时维度为 $r = n$ ，受约束时维度 $r$ 小于 $n$ 。
$\mathbf{\psi}\left[\mathbf{x}\left(t_{f}\right), t_{f}\right]=0$
其中 $\mathbf{\psi} \in \mathbb{R}^{r}$ 。
容许控制
控制被限制在控制域内，表示为 $\mathbf{u}(t) \in \Omega$ 。
性能指标
性能指标又称为目标函数或目标泛函，由任务目的决定。可分为积分型和末值型。积分型针对某函数变量在整个控制过程中值的积分进行优化，如最小转移时间；末值型则针对某函数变量到达目标状态时的值进行优化，如导弹脱靶量。
可以统一表示为
$J=\varphi\left[\mathbf{x}(t_{f}), t_{f}\right]+\int_{t_{0}}^{t_{f}} L[\mathbf{x}(t), \mathbf{u}(t), t] d t .$

2. 控制问题与变分法

变分法只能求解控制不受约束的问题。

2.1目标函数是泛函

在最优控制问题中，对于每一个以时间为自变量的状态函数 $\mathbf{x}(t)$ ，目标函数 $J$ 都有一个值与之对应，构成了函数到值的映射。即目标函数是函数的函数，而不是自变量的函数。

2.2 泛函变分

泛函的变分相当于函数的微分，指的是泛函增量的线性主部。在微分中 $y=f^{\prime}(x) \Delta x$ ，同理对于以函数 $\mathbf{x}(t)$ 为自变量的积分型的目标函数 $J(x)=\int_{t_{0}}^{t_{0}} L(x, \dot{x}, t) d t$ 有
$\delta J=\int_{t_{0}}^{t_{f}}\left(\frac{\partial L}{\partial x} \delta x+\frac{\partial L}{\partial \dot{x}} \delta \dot{x}\right) d t$

2.3 泛函极值定理

当目标函数的变分等于零时，意味着状态函数 $x (t)$ 发生微小改变时目标函数值不变，即取到极值。即可微泛函 $J[\mathbf{x}(t)]$ 在 $x=x^{*}(t)$ 上达到极值, 则 $J[\mathbf{x}(t)]$ 在 $x=x^{*}(t)$ 上的变分等于零，
$\delta J=0$

3. 变分法求解

3.1 广义泛函

对于没有约束条件的最优控制问题，可以直接写出变分使其等于0来求解。然而对于有等式约束（例如状态方程）的情况，可以通过将引入拉格朗日乘子向量来构造广义泛函。

积分型目标函数

一个有等式约束的积分型问题为
$\begin{gathered} \min _{\mathbf{x}} J(\mathbf{x})=\int_{t_{0}}^{t_{f}} L(\mathbf{x}, \mathbf{\dot{x}}, t) d t \\ \text { s. } t . \quad f(\mathbf{x}, \mathbf{\dot{x}}, t) - \mathbf{\dot{x}}=0 \end{gathered}$
$s . t .$ 指满足该条件。
引入乘子向量，也叫协态变量构造拉格朗日函数
$L_{a}(\mathbf{x}, \dot{\mathbf{x}}, \lambda, t)=L(\mathbf{x}, \dot{\mathbf{x}}, t)+\mathbf{\lambda}^{\top}(t)[f(\mathbf{x}, \dot{\mathbf{x}}, t)-\dot{\mathbf{x}}].$
为了便于求解，取拉格朗日函数的一部分定义哈密尔顿函数
$H(\mathbf{x}, \dot{\mathbf{x}}, \lambda, t)=L(\mathbf{x}, \dot{\mathbf{x}}, t)+\mathbf{\lambda}^{\top}(t)f(\mathbf{x}, \dot{\mathbf{x}}, t).$
此时，得到广义泛函 $J_{a}(\mathbf{x})=\int_{t_{0}}^{t_{f}} L_{a}(\mathbf{x}, \mathbf{\dot{x}}, t) d t，$ 由于 $\lambda^{\top}(t)[f(\mathbf{x}, \dot{\mathbf{x}}, t)-\dot{\mathbf{x}}]=0$ ，求 $J$ 极值等价于求 $J_{a}$ 极值。

末值型目标函数

一个末端时刻和状态满足目标集的末值型问题为
$\begin{gathered}J=\varphi\left[\mathbf{x}(t_{f}), t_{f}\right] \\ \text { s. } t . \quad \mathbf{\psi}\left[\mathbf{x}\left(t_{f}\right), t_{f}\right]=0 \end{gathered}$
同理，由于 $\mathbf{\psi}\left[\mathbf{x}\left(t_{f}\right), t_{f}\right]=0$ ，此处引入拉格朗日乘子 $\mathbf{\gamma}$ ，得到广义泛函 $J=\varphi\left[\mathbf{x}(t_{f}), t_{f}\right] +\mathbf{\gamma}^{\top}(t) \mathbf{\psi}\left[\mathbf{x}\left(t_{f}\right), t_{f}\right]=0$

3.2 变分的表示

末端时刻固定

考虑最一般的形式，已知初始末端时间和初始状态，末端状态自由（边界条件），有等式约束（系统数学模型）求解最优控制（性能指标）问题：
$\begin{gathered}J=\varphi\left[\mathbf{x}(t_{f})\right]+\int_{t_{0}}^{t_{f}} L[\mathbf{x}(t), \mathbf{u}(t), t] d t \\ \text { s. } t . \quad f(\mathbf{x}, \mathbf{\dot{x}}, t) - \mathbf{\dot{x}}=0,\quad \mathbf{x}(t_{0})=\mathbf{x}_{0}\\ \mathbf{\psi}\left[\mathbf{x}\left(t_{f}\right)\right]=0 \end{gathered}$
引入两个拉格朗日乘子得到广义泛函
$J_{a}=\varphi\left[\mathbf{x}(t_{f})\right] +\mathbf{\gamma}^{\top}(t) \mathbf{\psi}\left[\mathbf{x}\left(t_{f}\right)\right]+\int_{t_{0}}^{t_{f}}[H(\mathbf{x}, \dot{\mathbf{x}}, \lambda, t)-\mathbf{\lambda}^{\top}(t)\dot{\mathbf{x}}]dt$
最后一个积分项分部积分表示为 $-\int_{t_{0}}^{t_{f}} \lambda^{\top}(t) \dot{\mathbf{x}}(t) d t=-\left.\lambda^{\top}(t) \mathbf{x}(t)\right|_{t_{0}} ^{t_{f}}+\int_{t_{0}}^{t_{f}} \dot{\lambda}^{\top}(t) \mathbf{x}(t) d t$ ，带入得到
$J_{a}=\varphi\left[\mathbf{x}(t_{f})\right] +\mathbf{\gamma}^{\top}(t) \mathbf{\psi}\left[\mathbf{x}\left(t_{f}\right)\right]+\int_{t_{0}}^{t_{f}}[H(\mathbf{x}, \dot{\mathbf{x}}, \lambda, t)+\dot{\lambda}^{\top}(t) \mathbf{x}(t)]dt-\lambda^{\top}(t_{f}) \mathbf{x}(t_{f})+\lambda^{\top}(t_{0}) \mathbf{x}(t_{0})$
对除了 $t_{f},\gamma,\lambda,t$ 以外的变量写目标函数的变分，且初始时刻固定其状态变分为零即 $\delta \mathrm{x}\left(\mathrm{t}_{0}\right)=0$ ，得到
$\begin{aligned} \delta \mathrm{J}_{\mathrm{a}}=&\left(\frac{\partial \varphi}{\partial \mathrm{x}\left(\mathrm{t}_{\mathrm{f}}\right)}\right)^{\mathrm{T}} \delta \mathrm{x}\left(\mathrm{t}_{\mathrm{f}}\right) \\ &+\int_{\mathrm{t}_{0}}^{\mathrm{t}_{\mathrm{f}}}\left[\left(\frac{\partial \mathrm{H}}{\partial \mathrm{x}}+\dot{\lambda}\right)^{\mathrm{T}} \delta \mathrm{x}+\left(\frac{\partial \mathrm{H}}{\partial \mathrm{u}}\right)^{\mathrm{T}} \delta \mathrm{u}\right] \mathrm{dt}\\ &+\gamma^{\mathrm{T}}\left(\frac{\partial \psi^{\mathrm{T}}}{\partial \mathrm{x}\left(\mathrm{t}_{\mathrm{f}}\right)}\right)^{\mathrm{T}} \delta \mathrm{x}\left(\mathrm{t}_{\mathrm{f}}\right)-\lambda^{\mathrm{T}}\left(\mathrm{t}_{\mathrm{f}}\right) \delta \mathrm{x}\left(\mathrm{t}_{\mathrm{f}}\right) \end{aligned}$
要使变分为0，需要积分项为0，一式和状态方程统称为正则方程，二式称为极小值条件。
$\left\{\begin{array}{l} \dot{\lambda}(\mathrm{t})=-\frac{\partial \mathrm{H}}{\partial \mathrm{x}} \\ \frac{\partial \mathrm{H}}{\partial \mathrm{u}}=0 \end{array}\right.$
其他 $\delta x\left(t_{f}\right)$ 项称为横截条件，和初态及目标集统称为边界条件。
$\lambda\left(\mathrm{t}_{\mathrm{f}}\right)=\frac{\partial \varphi}{\partial \mathrm{x}\left(\mathrm{t}_{\mathrm{f}}\right)}+\frac{\partial \psi^{\mathrm{T}}}{\partial \mathrm{x}\left(\mathrm{t}_{\mathrm{f}}\right)} \gamma.$
显然, 在上述结果中, 若 $x\left(t_{f}\right)$ 自由, 则结果中不出现 $\Psi\left[\mathrm{x}\left(\mathrm{t}_{\mathrm{f}}\right)\right]$ 项; 若 $\mathrm{x}\left(\mathrm{t}_{\mathrm{f}}\right)$ 固定, 则因 $\delta x\left(t_{f}\right)=0$ , 横截条件不出现。

末端时刻自由

末端时刻自由时，末端由 $\left(\mathrm{x}_{\mathrm{f}}, \mathrm{t}_{\mathrm{f}}\right) \rightarrow\left(\mathrm{x}_{\mathrm{f}}+\delta \mathrm{x}_{\mathrm{f}}, \mathrm{t}_{\mathrm{f}}+\delta \mathrm{t}_{\mathrm{f}}\right)$ ，如下图所示
在这里插入图片描述

$\delta \mathrm{x}_{\mathrm{f}}$ 是实际末端状态变分， $\delta \mathrm{x}({\mathrm{t_{f}}})$ 是末端时刻固定时末端状态变分， $\delta t_{f}$ 是末端时刻变分，由图可近似得出三者近似关系
$\delta \mathrm{x}_{\mathrm{f}}=\delta \mathrm{x}\mathrm{t_{f}}+\dot{\mathrm{x}}(t_{f})\delta t_{f}$
考虑最一般的形式，已知初始时间和初始状态，末端时间和状态自由（边界条件），有等式约束（系统数学模型）求解最优控制（性能指标）问题：
$\begin{gathered}J=\varphi\left[\mathbf{x}(t_{f}), t_{f}\right]+\int_{t_{0}}^{t_{0}} L[\mathbf{x}(t), \mathbf{u}(t), t] d t \\ \text { s. } t . \quad f(\mathbf{x}, \mathbf{\dot{x}}, t) - \mathbf{\dot{x}}=0,\quad \mathbf{x}(t_{0})=\mathbf{x}_{0}\\ \mathbf{\psi}\left[\mathbf{x}\left(t_{f}\right), t_{f}\right]=0 \end{gathered}$
引入两个拉格朗日乘子得到广义泛函
$J_{a}=\varphi\left[\mathbf{x}(t_{f}), t_{f}\right] +\mathbf{\gamma}^{\top}(t) \mathbf{\psi}\left[\mathbf{x}\left(t_{f}\right), t_{f}\right]+\int_{t_{0}}^{t_{f}}[H(\mathbf{x}, \dot{\mathbf{x}}, \lambda, t)-\mathbf{\lambda}^{\top}(t)\dot{\mathbf{x}}]dt$
与末端时间固定不同的是，此处 $t_{f}$ 是变量，需要增加三处关于对除了 $t_{f}$ 的变分，它们是 $\frac{\partial \varphi}{\partial \mathrm{t}_{\mathrm{f}}} \delta \mathrm{t}_{\mathrm{f}}$ ， $\gamma^{\mathrm{T}}\frac{\partial \Psi}{\partial \mathrm{t}_{\mathrm{f}}} \delta \mathrm{t}_{\mathrm{f}}$ 以及 $\left(\mathrm{H}-\lambda^{\mathrm{T}} \dot{\mathrm{x}}\right)_{\mathrm{t}_{\mathrm{f}}} \delta \mathrm{t}_{\mathrm{f}}$ 。此时变分为
$\begin{aligned} &\delta \mathrm{J}_{a}=\left(\frac{\partial \varphi}{\partial \mathrm{x}\left(\mathrm{t}_{\mathrm{f}}\right)}\right)^{\mathrm{T}} \delta \mathrm{x}_{\mathrm{f}}+\frac{\partial \varphi}{\partial \mathrm{t}_{\mathrm{f}}} \delta \mathrm{t}_{\mathrm{f}} \\ &+\gamma^{\mathrm{T}}\left\{\left(\frac{\partial \Psi}{\partial \mathrm{x}\left(\mathrm{t}_{\mathrm{f}}\right)}\right)^{\mathrm{T}} \delta \mathrm{x}_{\mathrm{f}}+\frac{\partial \Psi}{\partial \mathrm{t}_{\mathrm{f}}} \delta \mathrm{t}_{\mathrm{f}}\right\} \\ &+\left(\mathrm{H}-\lambda^{\mathrm{T}} \dot{\mathrm{x}}\right)_{\mathrm{t}_{\mathrm{f}}} \delta \mathrm{t}_{\mathrm{f}} \\ &+\int_{\mathrm{t}_{0}}^{\mathrm{t}_{\mathrm{f}}}\left[\left(\frac{\partial \mathrm{H}}{\partial \mathrm{X}}+\dot{\lambda}\right)^{\mathrm{T}} \delta \mathrm{x}+\left(\frac{\partial \mathrm{H}}{\partial \mathrm{u}}\right)^{\mathrm{T}} \delta \mathrm{u}\right] \mathrm{dt} \\ &-\lambda^{\mathrm{T}}\left(\mathrm{t}_{\mathrm{f}}\right) \delta \mathrm{x}\left(\mathrm{t}_{\mathrm{f}}\right) \end{aligned}$
根据变分末端的近似关系可得 $-\lambda^{\mathrm{T}}\left(\mathrm{t}_{\mathrm{f}}\right) \delta \mathrm{x}\left(\mathrm{t}_{\mathrm{f}}\right)=-\lambda^{\mathrm{T}}\left(\mathrm{t}_{\mathrm{f}}\right) \delta \mathrm{x}_{\mathrm{f}}+\lambda^{\mathrm{T}}\left(\mathrm{t}_{\mathrm{f}}\right) \dot{\mathrm{x}}\left(\mathrm{t}_{\mathrm{f}}\right) \delta \mathrm{t}_{\mathrm{f}}$
整理得
$\begin{aligned} \delta \mathrm{J}_{\mathrm{a}} &=\left[\frac{\partial \varphi}{\partial \mathrm{t}_{\mathrm{f}}}+\gamma^{\mathrm{T}} \frac{\partial \Psi}{\partial \mathrm{t}_{\mathrm{f}}}+\mathrm{H}\left(\mathrm{t}_{\mathrm{f}}\right)\right] \delta \mathrm{t}_{\mathrm{f}} \\ &+\left[\frac{\partial \varphi}{\partial \mathrm{x}\left(\mathrm{t}_{\mathrm{f}}\right)}+\frac{\partial \Psi}{\partial \mathrm{x}\left(\mathrm{t}_{\mathrm{f}}\right)} \gamma-\lambda\left(\mathrm{t}_{\mathrm{f}}\right)\right]^{\mathrm{T}} \delta \mathrm{x}_{\mathrm{f}} \\ &+\int_{\mathrm{t}_{0}}^{\mathrm{t}_{\mathrm{f}}}\left[\left(\frac{\partial \mathrm{H}}{\partial \mathrm{X}}+\lambda\right)^{\mathrm{T}} \delta \mathrm{x}+\left(\frac{\partial \mathrm{H}}{\partial \mathrm{u}}\right)^{\mathrm{T}} \delta \mathrm{u}\right] \mathrm{dt} \end{aligned}$
同理，使各项为0可得极值。

总结

《最优控制理论与系统》201620015000000000009.pdf

Zeror_

关注

5
点赞
踩
22

收藏

觉得还不错? 一键收藏
打赏
1
评论
变分法求解最优控制问题推导思路

目录1. 最优控制问题1.1 问题定义1.2 问题组成及描述2. 控制问题与变分法2.1目标函数是泛函2.2 泛函变分2.3 泛函极值定理3. 变分法求解3.1 广义泛函积分型目标函数末值型目标函数3.2 变分的表示末端时刻固定末端时刻自由总结1. 最优控制问题1.1 问题定义根据已建立的被控对象的数学模型，从可供选择的容许控制集U中，寻求一个控制向量u(t)\mathbf{u}(t)u(t)，使被控系统在时间域内从初始状态转移到目标集时，性能泛函取极值。从数学观点来看，最优控制研究的问题是求解一类
复制链接

扫一扫