自适应动态规划硕士博士论文学习

基于自适应动态规划的非线性系统最优控制-南邮硕毕

主要内容:

  1. 外部扰动下,基于事件触发自适应动态规划。设计触发阈值,由评价网络近似性能指标函数,两个动作网络分别逼近控制输入和外部扰动。
  2. 外部扰动和状态约束下,基于安全自适应动态规划的最优控制策略。设计障碍函数保证系统安全性和最优性,包含障碍函数CBF的性能指标函数。
  3. 分层博弈优化控制问题,两个HJB方程的耦合形式,求解两个玩家的最优控制策略,不仅系统稳定,而且构成Stackelberg均衡策略。

事件触发控制器

定义在外部扰动下,事件触发控制器的设计。
在这里插入图片描述
事件触发控制系统渐进稳定性。李雅普诺夫函数描述以确定系统的一致渐进稳定性
Zeno芝诺行为是在事件触发控制,控制在有限时间内被无限次触发。事件触发机制使得离散时间系统中的采样时间间隔总是时间的整数倍。保证最小采样时间等于中间采样时间,Zeno行为不会发生。
神经网络设计

安全ADP

不等式约束形成安全集合,可容许状态空间。
定义障碍函数BF
在这里插入图片描述
在性能指标函数中加入CBF函数,CBF性质
在这里插入图片描述
选择CBF函数
在这里插入图片描述
引入后,对安全性和最优性权衡。安全性分析:性能指标函数存在性,CBF有界性,基于HJB方程的最优控制策略和最坏扰动策略

以上条件事件触发框架设计,则事件触发控制策略和扰动策略改为,根据正定值函数的李雅普诺夫函数证明渐进稳定
神经网络求解最优控制策略和最坏扰动策略,考虑重构误差。哈密顿函数近似,权重更新,梯度最速下降法,更新权重向量,权重更新

层级最优控制

二人非线性系统Stackelberg博弈最优控制
Stackelberg博弈为非合作博弈模型,领导者需要考虑到追随者的反应,并做出最优的决策,以最大化自己的利益。追随者需要根据领导者的决策做出自己的最优决策,但是追随者的决策对领导者的决策没有影响。

带饱和执行器系统,带输入约束的各参与者的性能指标函数
在这里插入图片描述
基于领导者策略,追随者的最优控制策略可得,由哈密顿函数,最优控制必要条件,最优策略给出。
系统渐进稳定,最优决策是Stackelberg均衡策略轮廓,最优策略
在线学习获得Stackelberg均衡,值迭代算法对当前策略实际值进一步递归。不需要初始的稳定策略

基于自适应动态规划的模型未知系统最优跟踪控制-沈工业硕毕

主要内容:

  1. 模型未知离散仿射非线性系统的最优跟踪控制问题,基于全局二次启发式规划(GHDP)结构的ADP最优控制方案。考虑控制信号变化,在原有的二次型性能指标函数基础上增加一项控制误差。将最优跟踪控制问题转化最优调节问题。
  2. 时滞的无模型随机线性二次型(SLQ)最优跟踪问题,基于VI的RL-Qlearning和HDP结构ADP最优跟踪控制问题。引入时滞算子构造原始系统和指令发生器组成的新的增广系统。将随机性问题转化为确定性问题。

基于自适应动态规划的受限无模型最优跟踪控制-大连海事硕毕

主要内容

无模型控制策略设计不需要知道系统动态信息,利用测量的输入输出数据在线估计未知系统动力学并设计控制策略。

考虑输入约束、状态约束和输出约束。基于障碍李雅普诺夫设计控制策略可解决系统状态约束或输出约束问题。状态到达受限边界,障碍李雅普诺夫函数的值变为无穷大,系统不稳定。

控制障碍函数解决非线性系统的受限问题,状态必须在指定的范围内。非受限和受限区域定义控制障碍函数B,KaTeX parse error: Undefined control sequence: \dotB at position 1: \̲d̲o̲t̲B̲ ̲\leq 0,则可保证约束域的方向不变性从而保证状态受限。

也有将控制障碍函数和控制李雅普诺夫函数结合的设计控制策略,保证非线性系统的稳定性和安全性。还有将原始系统转换成无约束系统的状态转换方法以处理受限问题。

对非线性特点,如输入死区非线性问题。

无人船模型

  1. 策略迭代算法求最优控制策略
  2. 神经网络逼近技术–径向基神经网络,估计值逼近函数。
  3. 李雅普诺夫稳定性
  4. PE持续激励条件

模型完全未知的最优跟踪控制问题

不依赖模型,结合反步和ADP,首先设计最优虚拟神经网络逼近解决系统未知动力学问题,再设计跟踪最优控制策略。

  1. 最优虚拟控制策略,跟踪误差,设计代价函数。设计HJB方程,采用梯度下降法,得到最优控制策略。但由于形式难以直接求解非线性方程。通过评价网络逼近值函数,由于最优代价函数,评价网络逼近可得最优虚拟控制策略。对估计的HJB方程和最优HJB方程差-正定函数 E η E_{\eta } Eη。梯度下降计算评价和动作网络的权重更新。
  2. 最优控制策略,速度误差定义,设计网络逼近,权重更新以及设计最优控制器。最优代价函数和最优HJB方程。同上
  3. 稳定性分析,可精确跟踪参考轨迹且跟踪误差是半全局一致最终有界的。李雅普诺夫函数

状态受限下无人船无模型最优控制

对于无人船的位姿与速度受到限制,障碍李雅普诺夫函数,当受限参数超出边界,障碍李雅普诺夫函数趋于无穷大,使障碍李雅普诺夫函数在闭环系统中有界,保证受限不会超出边界。

无人船模型,期望轨迹定义。设计障碍李雅普诺夫函数的最优反步控制策略。

  1. 状态受限最优虚拟控制策略。误差及导数定义,代价函数设计和最优代价函数,HJB方程设计。梯度下降法,最优虚拟控制策略,重新设计最优代价函数,评价网络逼近代价函数,修改最优代价函数、最优虚拟控制策略、最优HJB方程。最优HJB方程和逼近HJB方程的差定义梯度下降评价网络权重更新
  2. 状态受限下最优控制策略,速度误差及其导数定义,最优HJB方程和最优控制策略。估计代价函数,估计控制策略和估计HJB方程,评价网络权重更新策略
  3. 稳定性分析,李雅普诺夫理论(复杂证明)

状态和输入同时受限的无人船无模型跟踪控制

对于无人船存在输入死区问题,滑模控制处理未知外界扰动:积分滑膜通过合理设置初始状态使系统从初始时刻处于滑模面,从而消除到达阶段直接进行滑动,提高鲁棒性。
控制输入为死区输入,给出扰动与输入死去限制的模型

  1. 滑膜控制策略设计。构造误差函数,证明其稳定性。为消除外部扰动,控制策略 μ = μ 1 + μ 2 \mu=\mu_1+\mu_2 μ=μ1+μ2,设计积分滑膜形式。定理在初始时刻就存在稳定的滑膜
  2. 状态受限最优虚拟控制策略设计,同上
  3. 状态受限最优控制策略设计,同上
  4. 稳定性分析,在滑膜控制、最优控制和权重更新策略下,跟踪参考轨迹且跟踪误差是半全局一致最终有界的

不足和展望

仅针对全驱动无人船的轨迹跟踪最优控制,算法在欠驱动和过驱动无人船上将出现许多问题

离散时间动态系统的集成自适应动态规划智能控制-北科大博毕

主要内容:

  1. 传统值迭代产生迭代控制策略,给出稳定性和吸引域判据;传统值迭代则迭代过程中得到可容许策略
  2. 折扣因子对迭代控制策略可容许的影响,神经网络对未知系统建模,讨论模型网络权重更新情况下参数误差和系统状态估计误差的最终一致有界稳定性。
  3. 值函数收敛问题,提出速度可调节的新型迭代ADP,引入松弛因子
  4. 对ADP的跟踪问题,提出新的收敛分析方法使得跟踪误差趋于0

在这里插入图片描述
强化学习关注随机过程中的序贯决策问题,而自适应动态规划关注动态系统的控制问题

吸引域:系统渐近稳定的区域。

Related papers
Modified λ-Policy Iteration Based Adaptive Dynamic Programming for Unknown Discrete-Time Linear Systems

解决的问题:

  1. 可容许控制策略下的迭代自适应动态规划要求更加严格,传统值函数初始化常会导致可容许控制策略是未知的,甚至无法保证有限次迭代得到可容许的控制策略。
  2. 折扣因子对最优控制策略和迭代控制策略的可容许性是未知的
  3. 对于传统迭代ADP方法,循环迭代逼近Bellman最优方程的解,加快迭代收敛速度的框架仍需要改进
  4. 基于跟踪控制问题,将原系统进行变换为增广系统,从而转化为最优调节问题。

展望:

  1. 无模型的离线和在线控制算法的稳定性,对复杂系统基于数据学习控制策略
  2. 推广到各类框架
  3. 松弛因子,加速迭代学习,以尽可能少的迭代次数得到次优值函数

[1]哈明鸣.离散时间动态系统的集成自适应动态规划智能控制[D].北京科技大学,2023.DOI:10.26945/d.cnki.gbjku.2023.000441.

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值