ADP论文学习-最优跟踪控制问题

置顶 LucienLSA

已于 2024-03-28 16:12:18 修改

阅读量952

点赞数 7

文章标签：学习论文笔记

于 2024-03-01 22:39:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DarlingLSA/article/details/136356050

版权

本文记录ADP算法解决最优跟踪控制问题

文章中代码来源Frank L.Lewis

Reinforcement Q -learning for optimal tracking control of linear discrete-time systems with unknown dynamics✩，2014， Bahare Kiumarsi ，Frank L. Lewis , Hamidreza Modares ，Ali Karimpour ，Mohammad-Bagher Naghibi-Sistani

Linear Quadratic Tracking Control of Partially-Unknown Continuous-time Systems using Reinforcement Learning，2014， Hamidreza Modares, Frank L. Lewis, Fellow, IEEE

Model-Free Optimal Tracking Control via Critic-Only Q-Learning ，2016，Biao Luo, Member, IEEE, Derong Liu, Fellow, IEEE, Tingwen Huang, and Ding Wang, Member, IEEE

General value iteration based reinforcement learning for solving optimal tracking control problem of continuous–time affine nonlinear systems ，2017，Geyang Xiao, Huaguang Zhang , Yanhong Luo， Qiuxia Qu

Parallel Control for Optimal Tracking via Adaptive Dynamic Programming ，2020，Jingwei Lu, Qinglai Wei, Senior Member, IEEE, and Fei-Yue Wang, Fellow, IEEE

Event-Triggered ADP for Tracking Control of Partially Unknown Constrained Uncertain Systems，2022， Shan Xue, Biao Luo , Senior Member, IEEE, Derong Liu , Fellow, IEEE, and Ying Gao , Member, IEEE

A novel adaptive dynamic programming based on tracking error for nonlinear discrete-time systems✩，2021， Chun Li, Jinliang Ding, Frank L. Lewis, Tianyou Chai

Discounted Iterative Adaptive Critic Designs With Novel Stability Analysis for Tracking Control，2022， Mingming Ha, Ding Wang, Senior Member, IEEE, and Derong Liu, Fellow, IEEE

Distributed Optimal Tracking Control of Discrete-Time Multiagent Systems via Event-Triggered Reinforcement Learning，2022， Zhinan Peng ,RuiLuo , Jiangping Hu , Senior Member, IEEE,KaiboShi , Member, IEEE, and Bijoy Kumar Ghosh , Life Fellow, IEEE

Model-Free Q-Learning for the Tracking Problem of Linear Discrete-Time Systems，2024， Chun Li , Jinliang Ding , Senior Member, IEEE, Frank L. Lewis , Life Fellow, IEEE, and Tianyou Chai , Life Fellow, IEEE

关注

7
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
ADP论文学习-最优跟踪控制问题

对初始值函数为0，其值迭代VI算法迭代控制策略使得系统不能保证稳定。Theorem3.1给出在PI算法下，迭代值函数是单调不增的。连续时间和离散时间的策略迭代算法不同，首先HJB方程不同，且连续时间下的分析方法基于微分。，迭代值函数是单调不增，收敛到HJB方程的最优值。当迭代次数趋于无穷时，PI算法收敛，有迭迭代控制策略近似最优控制策略，迭代值函数是单调不增收敛到最优。传统的DP方法会面临维数灾难问题，控制序列是无限的，几乎不可能由HJB方程获得最优控制。获得最优控制策略，必须先获得最优值函数。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。