ADP论文学习-最优跟踪控制问题
对初始值函数为0,其值迭代VI算法迭代控制策略使得系统不能保证稳定。Theorem3.1给出在PI算法下,迭代值函数是单调不增的。连续时间和离散时间的策略迭代算法不同,首先HJB方程不同,且连续时间下的分析方法基于微分。,迭代值函数是单调不增,收敛到HJB方程的最优值。当迭代次数趋于无穷时,PI算法收敛,有迭迭代控制策略近似最优控制策略,迭代值函数是单调不增收敛到最优。传统的DP方法会面临维数灾难问题,控制序列是无限的,几乎不可能由HJB方程获得最优控制。获得最优控制策略,必须先获得最优值函数。
复制链接