Generalized policy iteration adaptive dynamic programming for discrete-time nonlinear systems

Generalized policy iteration adaptive dynamic programming for discrete-time nonlinear systems, IEEE Transactions on Systems, Man, and Cybernetics: Systems, Vol.45, No.12, 1577–1591, 2015.D. Liu, Q. Wei, P. Yan

提出新的广义策略迭代算法求解离散时间非线性系统的最优控制。利用ADP获得迭代控制策略使迭代值函数收敛到最优值。初始化为可容许控制策略,保证所有控制策略在迭代过程中是可容许的,迭代值函数是单调不增,收敛到HJB方程的最优值。分析迭代控制策略可容许性,稳定非线性系统。神经网络近似迭代值函数和迭代控制策略。
广义策略迭代算法与值迭代和策略迭代算法不同,分析方法不能适用。
Assumption1给出系统可稳定化的,函数满足Lipschitz连续;Assumption2给出系统在控制输入为0时,状态在平衡点;Assumption3给出反馈控制输入为0;Assumption4给出效用函数正定;
控制策略必须是可容许的内层含义为控制系统稳定且性能指标函数有界。
广义策略迭代的迭代步骤。i迭代为policy improvement控制策略更新,j迭代为policy evaluation值函数更新,控制策略不变。
在这里插入图片描述

比较值迭代、策略迭代和广义策略迭代方法

值迭代、策略迭代和广义策略迭代
基于Infinite horizon self-learning optimal control of nonaffine discrete-time nonlinear systems改进,更新的控制策略在迭代中并不满足可容许性。
在以往文献中在时间上的状态和行为,不根据时间序列进行迭代,且函数逼近要求对所有x的迭代值函数和迭代控制策略都精确求解,这不容易实现,而本文中迭代值函数和迭代控制随时间序列更新。
Theorem1给出在可容许的控制策略下,由策略提升和策略评估得到的迭代控制策略和迭代值函数,内部迭代值函数的单调不增;外部迭代值函数的单调不增。
Lemma1指出在Assumption下迭代值函数是正定的。Theorem2给出在PI算法下的迭代控制策略和迭代值函数,内部迭代次数趋于无穷时,迭代值函数内部迭代收敛,推论迭代控制策略是可容许的。Remark6指出对任意迭代次数N下,控制策略是可容许的。且避免求解GHJB方程
Theorem3给出在以上假设下,迭代值函数是收敛到最优性能指标函数。证明步骤a:迭代值函数的极限值满足HJB方程;b:给定在任意可容许策略下,辅助值函数大于次数趋于无穷的迭代值函数;c:给出次数趋于无穷的迭代值函数等价于最优性能指标函数。
Algorithm1给出Policy Evaluation算法(初始已知的可容许控制策略和任意半正定值函数),得到初始迭代值函数。Algorithm2给出Policy Improvement对初始值函数进行更新迭代控制策略。从Algorithm2得出Algotrithm1中的可容许策略不需要。
Algorithm3给出广义策略迭代的算法,内部迭代j次数到达任意非零整数N
Theorem4给出当满足策略提升时,且满足初始值函数和初始迭代值函数的不等式,就可满足迭代值函数的单调性。但由于初始值函数需要一定的迭代得到,是此缺陷。
神经网络近似值函数,采用梯度下降更新评价网络和动作网络的权重,最小化网络输出与迭代值函数和控制策略的误差。需要足够多的训练数据和提高训练精度。
展望研究收敛的迭代值函数和迭代控制策略的近似误差

  • 12
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值