最优控制理论基础-CSDN博客

本文链接：https://blog.csdn.net/hslcrjhsl/article/details/5108667

四．极大值原理和哈密尔顿-雅各布理论

在前面章节，我们利用古典变分解决了许多问题[1]。提出了关于标量和矢量的欧拉拉格朗日方程的推导。们讨论了相关的贯截条件以及，如果存在不等式约束我们所面临的很多困难。几个简单的最优控制问题是他的状态及其解。在本章中，我们要重新审视在前面章节中提出的许多问题，并获得其中一些更普遍的解法。此外，我们将进一步介绍针对用前面章节中的方法不能方便地公式化的一些问题的解法。
基于此，我们用哈密顿函数方法介绍变分演算博尔扎公式。这将引导我们进行庞特里亚金最大值原理和相关的贯截条件[2-5] 证明。而后我们将着手探讨哈密尔顿- 雅各布方程[2-14]，它相当于贝尔曼连续动态规划方程。最后，我们将简短介绍动态规划的一些限制。提出说明这种方法的例子。许多用极大值原理能够公式化并给出解的问题，我们将留在下一章讨论。
当终端时刻不固定，且控制向量和状态向量不一定是光滑函数时，为了让我们的方法更接近最优理论，我们必须较详细地考虑这些问题的起始变量。

4.1关于终端时间不固定函数的变分法

    现在我们把3.6节介绍的变分法扩展到未给定终端时间的问题中。考虑
                                     (4.1-1)
对于所有容许轨迹集。让为最优轨线x对应终端时间。与偏离最优轨线的每个扰动h对应的是在终端时刻的扰动。让第一变量是
                            (4.1-2)
的一部分，在h和是线性的。将式（414）代入式（412），取线性在 (在，，和 )并且进行一般分部积分以减少依赖于的条件到依赖于条件，我们得出：
，(4.1-3)
为了方便的，在此我们假设，初始条件是固定，即。
为了把方程（4.1-3）重新整理成方便的形式，我们采用下面记法。我们定义
                                  (4.1-4)
在泰勒级数展开中，我们注意到，近为在和是线性的。将式 (414)代入式 (413)和重新整理，一次变分为
              (4.1-5)
在我们的工作中，为了方便我们定义一数量，称为哈密尔顿：
，                           (4.1-6)
此处哈密尔顿不是的函数; 和称典型变项。根据汉密尔顿，方程(411)的一次变分式 (415)变为
。 (4.1-7)
为建立极小值必要条件，必须消去式(4.1-5)与（4.1-7）中积分环节，并且如从Eq (4.1-7)中获得贯截条件
                           (4.1-8)
是满意的。

4.2魏尔-艾尔德曼条件。

    至在我们目前的发展止，被约束容许轨迹是关于x和t连续可微的。这些泛函约束对所有容许轨迹往往是不符实际的限制，如下面的例子所述。在这个例子中，一种最优容许解是不存在; 但是，如果容许轨线的泛函约束充分地放宽，一条最优容许轨迹的存在是确定的。我们现在查看容许轨迹的新定义——埃德曼条件[1]的结果。
    让我们考虑依赖于的价函数

为最小的问题。
事实上，很显然绝对极小值时J等于0，并且得出

这无疑是这个问题的拉格朗日方程的解.
     但是，这个解有一个令人烦恼特点，这个最优有一个“死区”或不连续的一阶导数，这就因包含在拉格朗日方程中而产生的极大的困难。因此，上述问题的解决方法是不可取的。当然，这个特殊函数是处处连续可导的除了在有限个点 (在这种情况下单点 )之外。因此，应放宽允许轨线约束，以便得到分段连续可导的函数，这个函数是可行的，并且上述问题也有一个最优的允许控制。魏尔-艾尔德曼条件为我们提供了最优轨线在每个控制间隔点有一个不连续导数的必要条件。具体地，要考虑这样的问题，区间中有一点上的连续可微函数，其满足固定起始和终端边界值，在所有这种函数中找到一条轨线使泛函

有一个极值。理所当然，对于和，函数为极小值必须满足欧拉拉格朗日方程
。
我们可以把这个价值函数写作为两个价值函数的和：

我们可以分别取一次变分为和。现在我们假设，a和b固定，并且在t=c时从和计算出的是相同的。因为c是任意的，的一次变分为

因为为极值时满足使欧拉拉格朗日方程且由，我们有
( )。
类似地，我们可以写出，极值解一次变分为
( )。
为了取得极值，极值的解必须满足。
因而
，
因为和是任意的。方程 (4.2-1)和(4.2-2)这些约定，称埃德曼角点条件，并且必须保证在任何点c极值有一个角落。如果我们使用哈密顿典型变分
，
我们立刻发现魏尔埃德曼条件简单地要求在所有有角落的点的最优轨迹上H和是连续的。

4.3 博尔扎问题—无不等式约束

在3.7节我们考虑了等式约束为这种形式（所有t在感兴趣的控制区间）的拉格朗日方程的解。一种特殊情况，等式约束被认为作为一个大型的和重要的物理系统模型，是
，（4.3-1）
其中，选择m维向量代表了控制函数，n维向量x代表相应的轨线。我们将假设依赖于x和u的 f有连续偏导数。通常作这样连续性的假设是为了保证对于任何分段连续函数u，存在唯一容许轨线x的方程（4.3-1）。因此，我们定义对容许控制函数集是分段连续函数类，并且假设对于容许控制u以及给定的初始条件，方程(4.3-1)定义了感兴趣的控制间隔一个特别的，容许解。
利用这一节的余下部分和下面部分，我们将进一步考虑依赖于方程（4.3-1）等式约束的博尔扎问题的必要条件。4.3-1节和4.3-2节将考虑固定终端时刻和不固定终端时刻情况，当约束没有被强加给u可取一每次在在控制间隔利益期间的t值。第4.4节考虑控制函数的不等式约束及其相关通过控制间隔轨迹两种情况。

4.3-1 连续最优控制问题—
固定起始和终端时刻—
没有不等式约束
我们现在考虑确定一个容许控制函数u以其为最小值为准则的问题，
，                       （4.3-2）
其中和拥有关于x和u的连续偏导数。
我们在最后一节中讨论使用拉格朗日乘子法将系统微分等式约束邻近价值函数，则给出
。     （4.3-3）
我们定义了一个标量函数，汉密尔顿函数：
。             （4.3-4）
因而代价函数成为
。              （4.3-5）
如果我们分部积分被积方程(4.3-5)最后项，我们得到
。（4.3-6）
我们现在取J的一次变分作为最优控制向量和最优状态向量的控制向量和状态向量的变化。我们得到：
                 （4.3-7）
极小值一个必要条件是在J的一次变分中含任意变化的和要消去。因而我们有作为极小值必要条件有非常重要关系：
。
我们现在较详细地考虑在方程（4.3-8）中表达的横截条件。
有一大类最优控制问题是，系统的初始状态是确定的，但终端状态是不确定的。在此情况下, 方程(4.3-8)的横截条件为
，                （4.3-11）
由于，是固定的，则是完全任意地。另一大类最优控制问题是和是固定的。在这种情况下和必须为零，并且和就成为了两点边值的边界条件问题。对于许多预估问题，和都不固定且。在那中情况下, 由于和是任意的，方程(4.3-8)中有作为这类问题边界条件。另一个情况是，可能有、和。在此情况中，对于我们来说横截条件获得是很容易的，如果我们解这两个标量方程中n个变量，
。                （4.3-12）
我们现在给出横截条件的一个更加全面和精确的解释。对于一般情况下初始流形
                                           （4.3-13）
和终端流形是      ，                                （4.3-14）
我们通过拉格朗日乘子法毗邻这些条件到函数、和中，并且提供给价值函数
。          （4.3-15）
我们现在采用通常的变分技术获得在初始时刻的横截条件
          （4.3-16）
这n个初始条件可通过这样得到，同时从方程(4.3-16)找到的r参数,这样也满足方程(4.3-13)中r的条件。类似的，终端条件是
          （4.3-17）
n个终端条件通过这样获得，同时从方程（4.3-17）中找到参数q﹑v，这样方程(4.3-14)的q条件是满足的。
从方程(4.3-9)中得到的n维向量的微分方程被称为伴随方程。方程（4.3-10）表明了原植物的动态（方程((4.3-1))与伴随方程（方程（4.3-9）中的方程）两者之间的耦合关系。这个耦合方程能从

得到，并且很重要的一点是，要注意为了得出要获得最优控制需这个结论, 必须是完全任意的。对于此处提出的问题，其中容许控制集无限，可以是完全地任意。而对于容许控制是有界的，不可能是完全地任意的，并且可能不再是正确要求的条件了。关于这些内容我们在以后将有更多的叙述。我们为这种问题所得的解只是庞特里亚金极大值原理的一种特殊情况。
有趣的是要注意到，由，我们可以计算其对时间的全导
，（4.3-18）
但从方程 (4.3-9和(4.3-4)我们有
，                             （4.3-19）
且从方程(4.3-4) 可得
。                                （4.3-20）
因此，由，方程(4.3-18)变换为
                             （4.3-21）
我们可以看到，如果和f不是时间的显函数，沿的一条最优轨线的汉密尔顿是恒定的。可以证明，即使我们不要求，那么沿最优轨线这始终是正确的。我们在以后进一步地研究中将利用这个事实。
为了J为极小值，J沿所有轨线的二次变分必须是负的，这样可满足方程 (4.3-1)。.因此我们需要计算在方程 (4.3-6)中 J的二次变分，并且强制规定方程(4.3-1)的变分为零，或者
。                               （4.3-22）
利用这个条件以及取的泰勒级数展开的二次方部分，我们的到二次变分
               （4.3-23）
并且为极小值时其必定为非负。实际情形是n+m维矩阵在积分标志之下并且是非负定的。
例 4.3-1    给出我们微分系统的三个组成级联集成

我们希望推动系统到达终端流形，这样代价函数
为最小。对这问题的解决方案如下。我们计算方程 (4.3-4)汉密尔顿为
，
并且确定其耦合关系，方程 (4.3-10)，
，
及伴随方程(4.3-9)，
。

从方程(4.3-13)和(4.3-17)我们得出终端时刻得横截条件是
，

其中
。
因而
。
因此，在本例中当我们解两点边值问题的时，寻找最优控制和相应轨线的问题也
就彻底解决了。其中的两点边值表示为
.
尽管上面表示的六个一阶微分方程是完全线性的和时不变的，但因终端条件的非
线性性质，使得解这个问题变得很复杂了。在第10章，我们将找出一些迭代方法来克
服这个难题。

4.3-2
连续最优控制问题—
固定了起点和未指定终端时刻—
没有不平等约束.

在前面小节探讨的内容可能很容易地扩展到这种情况，即终端流形方程是一个终端时刻的函数，并且终端时间是非特指的. 为方便起见，我们将假定初始时间和初始状态向量已指定。而对于初始时间和初始状态向量不确定的情形，它的解可能更容易获得。因而问题就成为一个使代价函数
                         (4.3-24)
为最小值的问题,对于由
                                (4.3-25)
描述的系统是满足的。其中是固定的，并且未指定的终端时间为时，q向量终端流形方程是        。                                        (4.3-26)
在此要注意，先前章节中终端流形线，变成了，这样更具一般性。我们通过格朗日乘子把等式约束与价值函数联系起来得到
. (4.3-27)
正如前面，我们定义了汉密尔顿，
并且对价值函数的一部分进行积分，从方程（4.3-27）得到
。              （4.3-28）
我们通过让
          （4.3-29）
再次构建一次变分，然后构建微分式 ,且只保留线性条件。为了方便我们去掉^符号，因而有
，（4.3-30）
其中      。              （4.3-31）
我们必须让一次变分等于零，以获得极小值的必要条件。所以，确定最优控制及其状态向量的方程组为

这些都反映了二点边值的2n个微分方程问题。在初始时间的条件为
，                                           （4.3-36）
而在终端时刻为
                         （4.3-37）
，                                     （4.3-38）
并且      。               （4.3-39）
方程（4.3-37）提供n个条件与q个拉格朗日乘子是待定的。方程(4.3-38)提供q个方程以消除拉格朗日乘子，并且方程（4.3-39）提供了一个辅助方程，该方程中我们必须能确定它的未指定的终端时刻。
例 4.3-2      对于一阶单集成系统

我们希望找到使的控制函数u(t)，其中是未指定的。例如，和值指定时，使      取得最小值。
对于这个问题有
。
标准等式是：       ，
边界条件为，我们通过求解方程(4.3-39)来确定终端时间，在本例中，它变成     。
这个标准方程的解是      .
但由于并且在的特殊情况下，从上述内容中我们可以很容易看出有，这就确定本例的解。最优控制是 ; 相应的轨线是，且。
例4.3-3 我们在以后很感兴趣的问题是“最短时间”问题。在这种情况下
        ，
我们通过解方程(4.3-32)～(4.3-35)来确定最优控制及其相应的轨线，这些方程变成
，
且由方程(4.3-36)～(4.3-36)来确定边界条件

在许多情况下，系统带来的，其余为未指定的时间，以及终端流形的起源，使
那么上述表达式减少到

如果汉密尔顿不是时间的显函数，这里也用到的方程，（4.3-21），就成为 ; 因此，对于这个最小时间问题就有
。
应该强调我们将不解一般的最小时间问题，因为我们已经把无不平等约束强加在控制(或状态)变量中了。这种问题的一个可供选择观点是考虑和。对于这种特殊问题，虽然改变了汉密尔顿方程，但肯定不改变最优控制和状态向量，读者可以很容易地验证。