自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 收藏
  • 关注

原创 ADP论文学习-最优跟踪控制问题

对初始值函数为0,其值迭代VI算法迭代控制策略使得系统不能保证稳定。Theorem3.1给出在PI算法下,迭代值函数是单调不增的。连续时间和离散时间的策略迭代算法不同,首先HJB方程不同,且连续时间下的分析方法基于微分。,迭代值函数是单调不增,收敛到HJB方程的最优值。当迭代次数趋于无穷时,PI算法收敛,有迭迭代控制策略近似最优控制策略,迭代值函数是单调不增收敛到最优。传统的DP方法会面临维数灾难问题,控制序列是无限的,几乎不可能由HJB方程获得最优控制。获得最优控制策略,必须先获得最优值函数。

2024-03-01 22:39:11 984

原创 ADP论文学习-最优调节控制问题

有关ADP 的经典文章学习记录

2024-02-16 15:15:12 901

原创 Self-Triggered Approximate Optimal Neuro-Control for Nonlinear Systems Through ADP

Self-Triggered Approximate Optimal Neuro-Control for Nonlinear Systems Through Adaptive Dynamic Programming,2024, Bo Zhao , Senior Member, IEEE, Shunchao Zhang , and Derong Liu , Fellow, IEEE

2024-04-05 16:18:29 386 1

原创 Modified λ-Policy Iteration Based ADP for Unknown Discrete-Time Linear Systems

Modified λ-Policy Iteration Based Adaptive Dynamic Programming for Unknown Discrete-Time Linear Systems,2024, Huaiyuan Jiang , Bin Zhou , Senior Member, IEEE, and Guang-Ren Duan , Fellow, IEEE

2024-04-02 23:53:06 376

原创 自适应动态规划硕士博士论文学习

强化学习关注随机过程中的序贯决策问题,而自适应动态规划关注动态系统的控制问题。吸引域:系统渐近稳定的区域。

2024-04-01 17:21:40 494

原创 PG Adaptive Critic Designs for Model-Free Optimal Tracking Control With Experience Replay

Policy Gradient Adaptive Critic Designs for Model-Free Optimal Tracking Control With Experience Replay, 2022,Mingduo Lin, Bo Zhao , Senior Member, IEEE, and Derong Liu , Fellow, IEEE

2024-03-31 20:16:36 127

原创 Data-Driven Optimal Bipartite Consensus Control for Second-Order MASs via Policy Gradient RL

Data-Driven Optimal Bipartite Consensus Control for Second-Order Multiagent Systems via Policy Gradient Reinforcement Learning Qiwei Liu, Huaicheng Yan , Senior Member, IEEE, Meng Wang , Zhichen Li , and Shuai Liu

2024-03-29 23:20:24 157

原创 Model-Free Q-Learning for the Tracking Problem of Linear Discrete-Time Systems

Model-Free Q-Learning for the Tracking Problem of Linear Discrete-Time Systems,2024, Chun Li , Jinliang Ding , Senior Member, IEEE, Frank L. Lewis , Life Fellow, IEEE, and Tianyou Chai , Life Fellow, IEEE

2024-03-28 16:11:59 305

原创 A Novel Iterative -Adaptive Dynamic Programming for Discrete-Time Nonlinear Systems

A Novel Iterative -Adaptive Dynamic Programming for Discrete-Time Nonlinear Systems ,2014,Qinglai Wei, Member, IEEE, and Derong Liu, Fellow, IEEE

2024-03-25 17:36:47 144

原创 ADP-Based Event-Triggered Robust Control for Multiplayer Nonzero-Sum Games With Unknown Dynamics

Adaptive Dynamic Programming-Based Event-Triggered Robust Control for Multiplayer Nonzero-Sum Games With Unknown Dynamics ,2023,Yongwei Zhang , Member, IEEE,BoZhao , Senior Member, IEEE, Derong Liu , Fellow, IEEE, and Shunchao Zhang

2024-03-25 17:34:54 125

原创 Data-driven ADP schemes for non-zero-sum games of unknown DT nonlinear systems

Data-driven adaptive dynamic programming schemes for non-zero-sum games of unknown discrete-time nonlinear systems,2018, He Jiang, Huaguang Zhang∗, Kun Zhang, Xiaohong Cui

2024-03-25 17:33:25 132

原创 Event-Triggered Control of DT Zero-Sum Games via Deterministic Policy Gradient ADP

Event-Triggered Control of Discrete-Time Zero-Sum Games via Deterministic Policy Gradient Adaptive Dynamic Programming ,2022,Yongwei Zhang ,BoZhao , Senior Member, IEEE, Derong Liu , Fellow, IEEE, and Shunchao Zhang

2024-03-25 16:37:53 143

原创 ADP论文学习-零和或非零和博弈问题

Event-Triggered Control of Discrete-Time Zero-Sum Games via Deterministic Policy Gradient Adaptive Dynamic Programming ,2022,Yongwei Zhang ,BoZhao , Senior Member, IEEE, Derong Liu , Fellow, IEEE, and Shunchao Zhang

2024-03-25 16:36:52 143

原创 Policy Gradient Adaptive Dynamic Programming for Data-Based Optimal Control

Policy Gradient Adaptive Dynamic Programming for Data-Based Optimal Control Biao Luo, Member, IEEE, Derong Liu, Fellow, IEEE, Huai-Ning Wu, Ding Wang, Member, IEEE,andFrankL.Lewis,Life Fellow, IEEE

2024-03-25 10:41:28 103

原创 ADP-Based Optimal Control for Discrete-Time Systems With Safe Constraints and Disturbances

ADP-Based Optimal Control for Discrete-Time Systems With Safe Constraints and Disturbances,20024, Jun Ye , Hongyang Dong , Yougang Bian , Member, IEEE, Hongmao Qin, and Xiaowei Zhao , Member, IEEE

2024-03-23 15:19:33 136

原创 Distributed Optimal Tracking Control of DT Multiagent Systems via Event-Triggered RL

Distributed Optimal Tracking Control of Discrete-Time Multiagent Systems via Event-Triggered Reinforcement Learning,2022, Zhinan Peng ,RuiLuo , Jiangping Hu , Senior Member, IEEE,KaiboShi , Member, IEEE, and Bijoy Kumar Ghosh , Life Fellow, IEEE

2024-03-22 17:00:27 134

原创 Discrete-Time Local Value Iteration Adaptive Dynamic Programming: Convergence Analysis

Discrete-Time Local Value Iteration Adaptive Dynamic Programming: Convergence Analysis,2018 ,Qinglai Wei, Member, IEEE, Frank L. Lewis, Life Fellow, IEEE, Derong Liu, Fellow, IEEE, Ruizhuo Song, Member, IEEE, and Hanquan Lin

2024-03-20 21:29:30 118

原创 Model-Free Optimal Tracking Control via Critic-Only Q-Learning

Model-Free Optimal Tracking Control via Critic-Only Q-Learning Biao Luo, Member, IEEE, Derong Liu, Fellow, IEEE, Tingwen Huang, and Ding Wang, Member, IEEE

2024-03-20 15:17:28 135

原创 Event-Triggered ADP for Tracking Control of Partially Unknown Constrained Uncertain Systems

Event-Triggered ADP for Tracking Control of Partially Unknown Constrained Uncertain Systems,2022, Shan Xue, Biao Luo , Senior Member, IEEE, Derong Liu , Fellow, IEEE, and Ying Gao , Member, IEEE

2024-03-18 14:26:55 154

原创 Generalized Policy Iteration-based RL Algorithm for Optimal Control of Unknown Discrete-time Systems

根据B. Luo, D. Liu, H. N. Wu, D. Wang, F. L. Lewis, Policy gradient adaptive dynamic programming for data-based optimal control中的Policy gradient方法优点是放松系统动力学的要求,避免模型网络近似误差,使用离线数据直接得到最优控制。两个步骤获得迭代值函数和迭代控制策略,采用时间差分法学习获得迭代Qfunction,采用策略梯度法获得迭代控制策略。

2024-03-17 19:27:53 392

原创 Generalized policy iteration adaptive dynamic programming for discrete-time nonlinear systems

提出新的广义策略迭代算法求解离散时间非线性系统的最优控制。利用ADP获得迭代控制策略使迭代值函数收敛到最优值。,迭代值函数是单调不增,收敛到HJB方程的最优值。分析迭代控制策略可容许性,稳定非线性系统。神经网络近似迭代值函数和迭代控制策略。广义策略迭代算法与值迭代和策略迭代算法不同,分析方法不能适用。Assumption1给出系统可稳定化的,函数满足Lipschitz连续;Assumption2给出系统在控制输入为0时,状态在平衡点;Assumption3给出反馈控制输入为0;

2024-03-17 19:25:56 750

原创 Generalized value iteration for discounted optimal control with stability analysis

不需要初始的控制策略是可容许的,在某些条件下,当前迭代过程中的控制策略使系统稳定,则在后续的迭代中控制策略也能使系统稳定。Theorem4给出假定辅助的折扣因子,使得在某些条件下迭代值函数为待选李雅普诺夫函数且迭代控制策略下系统渐进稳定。Algorithm1需要满足,1:折扣因子大小,使存在一个迭代次数,在后续迭代中保证迭代控制策略能使系统稳定;Theorem5给出在效用函数和迭代值函数不等式条件下,折扣因子大于迭代辅助折扣因子,迭代控制策略使得闭环系统是渐进稳定的。的比较情况,则影响迭代值函数的单调性。

2024-03-17 19:24:35 780

原创 Optimal control for discrete-time affine non-linear systems using general value iteration

初始值函数不同于传统的, 给出新的值函数收敛性和分析收敛速度。考虑神经网络近似误差情况下,给出基于误差界限的条件,估计出最优值函数和近似值函数之间的误差。Theorem2给出收敛性分析,且其中参数的大小与收敛的速度有关,上界趋近于下界,收敛到最优值。Theorem4给出近似值函数的有界性,以及讨论近似误差的存在与减小。而对非线性最优控制问题的代价函数不能得到,因此通过求解离散时间的HJB方程采用广义VI算法。缺陷不足,必须在有限迭代次数下,找到稳定的有效控制策略,稳定系统。值函数和控制迭代直到收敛到最优。

2024-03-17 19:23:45 610 1

原创 Value Iteration Adaptive Dynamic Programming for Optimal Control of Discrete-Time Nonlinear Systems

对离散时间非线性系统,采用值迭代ADP算法,求解无限时域无折扣因子最优控制问题。初始值函数为任意半正定。提出,保证迭代值函数收敛到最优值函数。初始化不同值函数,可证明迭代值函数为单调不增,单调不减或不单调。由于迭代控制策略的可容许性不能仅靠收敛终止判据来保证,因此第一次提出值迭代算法的迭代控制策略的容许性,确定新的终止标准以保证迭代控制策略的有效性。神经网络近似迭代值函数和计算迭代控制策略。

2024-03-17 19:22:13 1842 1

原创 Policy Iteration Adaptive Dynamic Programming Algorithm for Discrete-Time Nonlinear Systems

本文是第一次对离散非线性系统采用策略迭代的方法分析收敛性和稳定性。反复实验获得,迭代值函数是单调不增,收敛到HJB方程的最优值。证明任意迭代控制策略使非线性系统稳定。神经网络近似值函数和求最优控制,且分析权重矩阵的收敛性。根据Discrete-Time Nonlinear HJB Solution Using Approximate Dynamic Programming: Convergence Proof ,2008 Asma Al-Tamimi;

2024-03-17 19:20:29 1125 1

原创 Online Optimal Control of Affine Nonlinear DT Systems With Unknown Internal Dynamics by Using Time-B

对仿射非线性离散时间系统,不使用策略迭代和值迭代方法,使用神经网络时间上向前求解HJB方程得到最优控制。未知内部动力学和已知的控制协矩阵(仅需要输入增益),近似代价函数即评价网络,产生控制输入和策略更新即动作网络。在采样时刻对代价函数额和控制策略一次更新,称为time-based ADP。李雅普诺夫理论证明所有信号是一致最终有界,近似控制策略逼近最优控制策略以很小的有界误差,神经网络权重估计值接近目标值,此时代价函数和控制策略随时间更新。

2024-03-17 19:18:14 748 1

原创 Neural network approach to CT direct adaptive optimal control for partially unknown nonlinear system

为上述文章进行扩展,基于函数逼近器算法提供收敛性证明,同时考虑了Actor-Critic结构与控制函数和成本函数之间存在的逼近误差。结果为混合控制结构:一个连续时间控制器和监督自适应结构,该结构从被控对象采集的数据和连续时间下的性能动力学进行实现。本文提出Actor-Critic神经网络结构,连续时间下,在线求解非线性系统的最优控制问题,而不使用系统的内部动力学。,策略评估和策略提升,进行评估其值函数,进而得到新的控制策略,但在过去的文献中,所采用的PI算法都需要完整的动力学模型。

2024-03-17 19:15:09 358 1

原创 Discrete-Time Nonlinear HJB Solution Using Approximate Dynamic Programming: Convergence Proof

对离散非线性系统的整定问题,给出基于值迭代的HDP算法和收敛性证明,HDP收敛于最优控制和最优值函数,求解无限时域离散时间非线性系统中最优控制出现的HJB方程。给出值和动作的更新方程。评价网络近似值函数,动作网络近似最优控制,模型网络逼近实际系统。迭代值函数单调不减、有界,收敛到最优值。HDP算法实现不需要系统的内部动力学。对LQR问题,动作为线性的,值函数为二次型,神经网络没有近似误差。其他文献常仅有一个评价网络。给出动态规划(DP)求解DARE是向后计算的,而HDP求解是向前计算的。

2024-03-17 19:12:33 847 1

原创 Discounted Iterative Adaptive Critic Designs With Novel Stability Analysis for Tracking Control

由于最优值函数在一开始未知,Theorem2给出在相应的折扣因子满足的条件下,迭代控制策略下跟踪误差趋于0。Theorem3讨论函数近似器(神经网络)的近似误差的条件,满足近似迭代值函数和折扣因子的条件,则跟踪误差趋于0。如果折扣因子选取不当,不能保证闭环系统的稳定性,由于迭代值函数中不仅有跟踪误差,还包括参考控制输入,故不能视为李雅普诺夫函数。给出VI算法的值更新和策略提升步骤。Lemma1给出迭代值函数是单调不增的,且在折扣因子下迭代值函数和最优值函数的不等式,以及迭代值函数和控制策略收敛到最优。

2024-03-17 19:06:46 305 1

原创 A novel adaptive dynamic programming based on tracking error for nonlinear discrete-time systems

对离散非线性系统的最优跟踪问题,提出新的值函数形式,以通过ADP算法消除跟踪误差。为避免求解参考控制输入,将控制输入引入控制跟踪误差中,忽略控制输入的二次型,使得。值函数的收敛性和有界性与折扣因子无关。基于提出的值迭代方法,在不考虑参考控制输入情况下推导出最优控制策略。根据VI和PI算法证明所得到控制策略的最优性,并推出迭代值函数的收敛性和单调性。采用神经网络和动作评价网络验证ADP算法有效性。根据往年的文献,跟踪问题可转化为调节问题,但不易求解参考控制输入。

2024-03-17 19:03:14 553 3

原创 Parallel Control for Optimal Tracking via Adaptive Dynamic Programming

对连续非线性系统求解最优平行控制,与现有的最优状态反馈控制不同,最优平行控制的控制输入被引入到反馈系统中。但由于反馈系统中控制输入的引入,最优状态反馈控制方法不能直接应用,则提出增广系统和增广性能指标函数。状态反馈系统的李雅普诺夫函数Ve​,增广系统李雅普诺夫函数Vp​eue​。因此一般非线性系统转化为仿射非线性系统,分析最优平行控制和最优反馈控制的不同。ADP方法使用评价网络在线近似值函数。

2024-03-17 19:01:34 730 1

原创 General value iteration based RL for solving OTC problem of CT affine nonlinear systems

对仿射非线性系统连续时间,采用广义值迭代法求解最优跟踪控制问题。

2024-03-17 11:55:06 403 1

原创 Linear Quadratic Tracking Control of Partially-Unknown Continuous-time Systems using RL

原系统状态和指令生成器的值函数形式是二次型的。LQT贝尔曼方程和LQT的ARE方程,以求解LQT方程。采用积分RL算法在系统漂移动力学或者指令生成器未知的情况下在线求解LQT的ARE方程解,并给出收敛性分析。传统LQT解最优控制由两部分:求解ARE得到反馈项,求解微分方程或利用系统动力学先验计算期望控制输入。反馈项稳定跟踪误差动力学,前馈项保证跟踪轨迹。传统离线方法,需要时间上向后计算和完整系统动力学。在以往文章中采用动力学可逆概念以求得前馈控制输入,RL以求解最优反馈控制输入。

2024-03-17 11:51:05 2092 1

原创 Q-learning for optimal tracking control of linear discrete-time systems with unknown dynamics

对未知离散时间系统,提出新的基于Qlearning算法求解无限时域线性二次跟踪器LQT问题。线性指令生成器以产生参考轨迹,由指令生成器和原系统组成增广系统。值函数是增广系统(状态和参考轨迹)的二次型函数。给出求解LQT的贝尔曼方程和增广的代数Riccati方程。而本文只需要求解增广的ARE方程。Qlearning算法以在线求解增广ARE(未知系统动力学或指令生成器、不需要增广系统动力学),传统的LQT求解有前馈输入(求解非因果差分方程)和反馈输入(求解ARE)。

2024-03-17 11:47:45 1079 1

原创 C语言数据结构与算法笔记(排序算法)

排序算法基础排序冒泡排序

2024-03-14 09:13:22 214 1

原创 C语言数据结构与算法笔记(图结构)

图也是由多个节点连接而成的,但一个节点可同时连接多个其他节点,多个节点也可以同时指向一个节点。多对多的关系。

2024-03-09 20:57:42 284

原创 C语言数据结构与算法笔记(散列表)

散列也称哈希,直接寻址。

2024-03-09 20:17:10 2040

原创 C语言数据结构与算法笔记(树性结构)

一个结点下面可能连接多个结点,并不断延伸。树的分支只能向后单独延伸,b不能与其他分支上的结点相交。位于最上方的结点为根结点每个结点连接的子结点数目(分支的数目),称为结点的度,而各个结点度的最大值为树的度。每个结点延伸下一个结点称为一颗子树。每个结点的层次按从上往下顺序,树的根节点为1,每向下一层+1。整棵树中所有结点的最大层次,即这棵树的深度规定结点之间的名称与当前结点直接向下相连的结点,称为子节点。反过来,当前结点为下面的结点的父节点。

2024-03-01 11:07:43 390

原创 Docker基础上手学习笔记

Docker允许开发中将应用、依赖、函数库、配置一起打包,形成可移植镜像Docker应用运行在容器中,相互隔离Docker镜像中包含完整运行环境,包括系统函数库,仅依赖系统的Linux内核,因此可在任意Linux操作系统上运行。

2024-02-23 16:04:30 573

原创 计算机FinalShell和VSCode(remote-ssh插件)的SSH连接(linux)

如何通过FinalShell的SSH连接另一台计算机(linux)

2024-02-12 22:50:29 908

Q-learning for optimal tracking control

Q-learning for optimal tracking control

2024-04-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除