LucienLSA-CSDN博客

原创 ADP论文学习-最优跟踪控制问题

对初始值函数为0，其值迭代VI算法迭代控制策略使得系统不能保证稳定。Theorem3.1给出在PI算法下，迭代值函数是单调不增的。连续时间和离散时间的策略迭代算法不同，首先HJB方程不同，且连续时间下的分析方法基于微分。，迭代值函数是单调不增，收敛到HJB方程的最优值。当迭代次数趋于无穷时，PI算法收敛，有迭迭代控制策略近似最优控制策略，迭代值函数是单调不增收敛到最优。传统的DP方法会面临维数灾难问题，控制序列是无限的，几乎不可能由HJB方程获得最优控制。获得最优控制策略，必须先获得最优值函数。

2024-03-01 22:39:11 1385

原创 ADP论文学习-最优调节控制问题

有关ADP 的经典文章学习记录

2024-02-16 15:15:12 1282

原创 Self-Triggered Approximate Optimal Neuro-Control for Nonlinear Systems Through ADP

Self-Triggered Approximate Optimal Neuro-Control for Nonlinear Systems Through Adaptive Dynamic Programming，2024， Bo Zhao , Senior Member, IEEE, Shunchao Zhang , and Derong Liu , Fellow, IEEE

2024-04-05 16:18:29 535 2

原创 Modified λ-Policy Iteration Based ADP for Unknown Discrete-Time Linear Systems

Modified λ-Policy Iteration Based Adaptive Dynamic Programming for Unknown Discrete-Time Linear Systems，2024， Huaiyuan Jiang , Bin Zhou , Senior Member, IEEE, and Guang-Ren Duan , Fellow, IEEE

2024-04-02 23:53:06 518

原创自适应动态规划硕士博士论文学习

强化学习关注随机过程中的序贯决策问题，而自适应动态规划关注动态系统的控制问题。吸引域：系统渐近稳定的区域。

2024-04-01 17:21:40 1248

原创 PG Adaptive Critic Designs for Model-Free Optimal Tracking Control With Experience Replay

Policy Gradient Adaptive Critic Designs for Model-Free Optimal Tracking Control With Experience Replay， 2022，Mingduo Lin, Bo Zhao , Senior Member, IEEE, and Derong Liu , Fellow, IEEE

2024-03-31 20:16:36 234

原创 Data-Driven Optimal Bipartite Consensus Control for Second-Order MASs via Policy Gradient RL

Data-Driven Optimal Bipartite Consensus Control for Second-Order Multiagent Systems via Policy Gradient Reinforcement Learning Qiwei Liu, Huaicheng Yan , Senior Member, IEEE, Meng Wang , Zhichen Li , and Shuai Liu

2024-03-29 23:20:24 237

原创 Model-Free Q-Learning for the Tracking Problem of Linear Discrete-Time Systems

Model-Free Q-Learning for the Tracking Problem of Linear Discrete-Time Systems，2024， Chun Li , Jinliang Ding , Senior Member, IEEE, Frank L. Lewis , Life Fellow, IEEE, and Tianyou Chai , Life Fellow, IEEE

2024-03-28 16:11:59 559

原创 A Novel Iterative -Adaptive Dynamic Programming for Discrete-Time Nonlinear Systems

A Novel Iterative -Adaptive Dynamic Programming for Discrete-Time Nonlinear Systems ，2014，Qinglai Wei, Member, IEEE, and Derong Liu, Fellow, IEEE

2024-03-25 17:36:47 276

原创 ADP-Based Event-Triggered Robust Control for Multiplayer Nonzero-Sum Games With Unknown Dynamics

Adaptive Dynamic Programming-Based Event-Triggered Robust Control for Multiplayer Nonzero-Sum Games With Unknown Dynamics ，2023，Yongwei Zhang , Member, IEEE,BoZhao , Senior Member, IEEE, Derong Liu , Fellow, IEEE, and Shunchao Zhang

2024-03-25 17:34:54 250

原创 Data-driven ADP schemes for non-zero-sum games of unknown DT nonlinear systems

Data-driven adaptive dynamic programming schemes for non-zero-sum games of unknown discrete-time nonlinear systems，2018， He Jiang, Huaguang Zhang∗, Kun Zhang, Xiaohong Cui

2024-03-25 17:33:25 322

原创 Event-Triggered Control of DT Zero-Sum Games via Deterministic Policy Gradient ADP

Event-Triggered Control of Discrete-Time Zero-Sum Games via Deterministic Policy Gradient Adaptive Dynamic Programming ,2022,Yongwei Zhang ,BoZhao , Senior Member, IEEE, Derong Liu , Fellow, IEEE, and Shunchao Zhang

2024-03-25 16:37:53 352

原创 ADP论文学习-零和或非零和博弈问题

Event-Triggered Control of Discrete-Time Zero-Sum Games via Deterministic Policy Gradient Adaptive Dynamic Programming ,2022,Yongwei Zhang ,BoZhao , Senior Member, IEEE, Derong Liu , Fellow, IEEE, and Shunchao Zhang

2024-03-25 16:36:52 306

原创 Policy Gradient Adaptive Dynamic Programming for Data-Based Optimal Control

Policy Gradient Adaptive Dynamic Programming for Data-Based Optimal Control Biao Luo, Member, IEEE, Derong Liu, Fellow, IEEE, Huai-Ning Wu, Ding Wang, Member, IEEE,andFrankL.Lewis,Life Fellow, IEEE

2024-03-25 10:41:28 245

原创 ADP-Based Optimal Control for Discrete-Time Systems With Safe Constraints and Disturbances

ADP-Based Optimal Control for Discrete-Time Systems With Safe Constraints and Disturbances，20024， Jun Ye , Hongyang Dong , Yougang Bian , Member, IEEE, Hongmao Qin, and Xiaowei Zhao , Member, IEEE

2024-03-23 15:19:33 336

原创 Distributed Optimal Tracking Control of DT Multiagent Systems via Event-Triggered RL

Distributed Optimal Tracking Control of Discrete-Time Multiagent Systems via Event-Triggered Reinforcement Learning，2022， Zhinan Peng ,RuiLuo , Jiangping Hu , Senior Member, IEEE,KaiboShi , Member, IEEE, and Bijoy Kumar Ghosh , Life Fellow, IEEE

2024-03-22 17:00:27 358

原创 Discrete-Time Local Value Iteration Adaptive Dynamic Programming: Convergence Analysis

Discrete-Time Local Value Iteration Adaptive Dynamic Programming: Convergence Analysis，2018 ，Qinglai Wei, Member, IEEE, Frank L. Lewis, Life Fellow, IEEE, Derong Liu, Fellow, IEEE, Ruizhuo Song, Member, IEEE, and Hanquan Lin

2024-03-20 21:29:30 213

原创 Model-Free Optimal Tracking Control via Critic-Only Q-Learning

Model-Free Optimal Tracking Control via Critic-Only Q-Learning Biao Luo, Member, IEEE, Derong Liu, Fellow, IEEE, Tingwen Huang, and Ding Wang, Member, IEEE

2024-03-20 15:17:28 290

原创 Event-Triggered ADP for Tracking Control of Partially Unknown Constrained Uncertain Systems

Event-Triggered ADP for Tracking Control of Partially Unknown Constrained Uncertain Systems，2022， Shan Xue, Biao Luo , Senior Member, IEEE, Derong Liu , Fellow, IEEE, and Ying Gao , Member, IEEE

2024-03-18 14:26:55 298

原创 Generalized Policy Iteration-based RL Algorithm for Optimal Control of Unknown Discrete-time Systems

根据B. Luo, D. Liu, H. N. Wu, D. Wang, F. L. Lewis, Policy gradient adaptive dynamic programming for data-based optimal control中的Policy gradient方法优点是放松系统动力学的要求，避免模型网络近似误差，使用离线数据直接得到最优控制。两个步骤获得迭代值函数和迭代控制策略，采用时间差分法学习获得迭代Qfunction，采用策略梯度法获得迭代控制策略。

2024-03-17 19:27:53 510

原创 Generalized policy iteration adaptive dynamic programming for discrete-time nonlinear systems

提出新的广义策略迭代算法求解离散时间非线性系统的最优控制。利用ADP获得迭代控制策略使迭代值函数收敛到最优值。，迭代值函数是单调不增，收敛到HJB方程的最优值。分析迭代控制策略可容许性，稳定非线性系统。神经网络近似迭代值函数和迭代控制策略。广义策略迭代算法与值迭代和策略迭代算法不同，分析方法不能适用。Assumption1给出系统可稳定化的，函数满足Lipschitz连续；Assumption2给出系统在控制输入为0时，状态在平衡点；Assumption3给出反馈控制输入为0；

2024-03-17 19:25:56 908

原创 Generalized value iteration for discounted optimal control with stability analysis

不需要初始的控制策略是可容许的，在某些条件下，当前迭代过程中的控制策略使系统稳定，则在后续的迭代中控制策略也能使系统稳定。Theorem4给出假定辅助的折扣因子，使得在某些条件下迭代值函数为待选李雅普诺夫函数且迭代控制策略下系统渐进稳定。Algorithm1需要满足，1：折扣因子大小，使存在一个迭代次数，在后续迭代中保证迭代控制策略能使系统稳定；Theorem5给出在效用函数和迭代值函数不等式条件下，折扣因子大于迭代辅助折扣因子，迭代控制策略使得闭环系统是渐进稳定的。的比较情况，则影响迭代值函数的单调性。

2024-03-17 19:24:35 872

原创 Optimal control for discrete-time affine non-linear systems using general value iteration

初始值函数不同于传统的，给出新的值函数收敛性和分析收敛速度。考虑神经网络近似误差情况下，给出基于误差界限的条件，估计出最优值函数和近似值函数之间的误差。Theorem2给出收敛性分析，且其中参数的大小与收敛的速度有关，上界趋近于下界，收敛到最优值。Theorem4给出近似值函数的有界性，以及讨论近似误差的存在与减小。而对非线性最优控制问题的代价函数不能得到，因此通过求解离散时间的HJB方程采用广义VI算法。缺陷不足，必须在有限迭代次数下，找到稳定的有效控制策略，稳定系统。值函数和控制迭代直到收敛到最优。

2024-03-17 19:23:45 728 1

原创 Value Iteration Adaptive Dynamic Programming for Optimal Control of Discrete-Time Nonlinear Systems

对离散时间非线性系统，采用值迭代ADP算法，求解无限时域无折扣因子最优控制问题。初始值函数为任意半正定。提出，保证迭代值函数收敛到最优值函数。初始化不同值函数，可证明迭代值函数为单调不增，单调不减或不单调。由于迭代控制策略的可容许性不能仅靠收敛终止判据来保证，因此第一次提出值迭代算法的迭代控制策略的容许性，确定新的终止标准以保证迭代控制策略的有效性。神经网络近似迭代值函数和计算迭代控制策略。

2024-03-17 19:22:13 2139 1

原创 Policy Iteration Adaptive Dynamic Programming Algorithm for Discrete-Time Nonlinear Systems

本文是第一次对离散非线性系统采用策略迭代的方法分析收敛性和稳定性。反复实验获得，迭代值函数是单调不增，收敛到HJB方程的最优值。证明任意迭代控制策略使非线性系统稳定。神经网络近似值函数和求最优控制，且分析权重矩阵的收敛性。根据Discrete-Time Nonlinear HJB Solution Using Approximate Dynamic Programming: Convergence Proof ，2008 Asma Al-Tamimi;

2024-03-17 19:20:29 1514 1

原创 Online Optimal Control of Affine Nonlinear DT Systems With Unknown Internal Dynamics by Using Time-B

对仿射非线性离散时间系统，不使用策略迭代和值迭代方法，使用神经网络时间上向前求解HJB方程得到最优控制。未知内部动力学和已知的控制协矩阵（仅需要输入增益），近似代价函数即评价网络，产生控制输入和策略更新即动作网络。在采样时刻对代价函数额和控制策略一次更新，称为time-based ADP。李雅普诺夫理论证明所有信号是一致最终有界，近似控制策略逼近最优控制策略以很小的有界误差，神经网络权重估计值接近目标值，此时代价函数和控制策略随时间更新。

2024-03-17 19:18:14 854 1

原创 Neural network approach to CT direct adaptive optimal control for partially unknown nonlinear system

为上述文章进行扩展，基于函数逼近器算法提供收敛性证明，同时考虑了Actor-Critic结构与控制函数和成本函数之间存在的逼近误差。结果为混合控制结构：一个连续时间控制器和监督自适应结构，该结构从被控对象采集的数据和连续时间下的性能动力学进行实现。本文提出Actor-Critic神经网络结构，连续时间下，在线求解非线性系统的最优控制问题，而不使用系统的内部动力学。，策略评估和策略提升，进行评估其值函数，进而得到新的控制策略，但在过去的文献中，所采用的PI算法都需要完整的动力学模型。

2024-03-17 19:15:09 530 2

原创 Discrete-Time Nonlinear HJB Solution Using Approximate Dynamic Programming: Convergence Proof

对离散非线性系统的整定问题，给出基于值迭代的HDP算法和收敛性证明，HDP收敛于最优控制和最优值函数，求解无限时域离散时间非线性系统中最优控制出现的HJB方程。给出值和动作的更新方程。评价网络近似值函数，动作网络近似最优控制，模型网络逼近实际系统。迭代值函数单调不减、有界，收敛到最优值。HDP算法实现不需要系统的内部动力学。对LQR问题，动作为线性的，值函数为二次型，神经网络没有近似误差。其他文献常仅有一个评价网络。给出动态规划（DP）求解DARE是向后计算的，而HDP求解是向前计算的。

2024-03-17 19:12:33 1095 1

原创 Discounted Iterative Adaptive Critic Designs With Novel Stability Analysis for Tracking Control

由于最优值函数在一开始未知，Theorem2给出在相应的折扣因子满足的条件下，迭代控制策略下跟踪误差趋于0。Theorem3讨论函数近似器（神经网络）的近似误差的条件，满足近似迭代值函数和折扣因子的条件，则跟踪误差趋于0。如果折扣因子选取不当，不能保证闭环系统的稳定性，由于迭代值函数中不仅有跟踪误差，还包括参考控制输入，故不能视为李雅普诺夫函数。给出VI算法的值更新和策略提升步骤。Lemma1给出迭代值函数是单调不增的，且在折扣因子下迭代值函数和最优值函数的不等式，以及迭代值函数和控制策略收敛到最优。

2024-03-17 19:06:46 426 1

Q-learning for optimal tracking control

空空如也