Linear Quadratic Tracking Control of Partially-Unknown Continuous-time Systems using RL

LucienLSA

已于 2024-04-20 19:41:50 修改

阅读量2k

点赞数 54

文章标签：学习笔记

于 2024-03-17 11:51:05 首次发布

本文链接：https://blog.csdn.net/DarlingLSA/article/details/136779535

版权

本文探讨了在系统动力学部分未知的情况下，如何使用强化学习在线求解LQT的ARE方程，以实现线性二次跟踪控制。研究了增广ARE的因果解和标准解的局限性，并提出基于积分RL和神经网络的算法来求解最优控制策略。文中还涉及了稳定性分析和Matlab仿真实现。

摘要由CSDN通过智能技术生成

Linear Quadratic Tracking Control of Partially-Unknown Continuous-time Systems using Reinforcement Learning，2014， Hamidreza Modares, Frank L. Lewis, Fellow, IEEE

原系统状态和指令生成器的值函数形式是二次型的。LQT贝尔曼方程和LQT的ARE方程，以求解LQT方程。采用积分RL算法在系统漂移动力学或者指令生成器未知的情况下在线求解LQT的ARE方程解，并给出收敛性分析。
传统LQT解最优控制由两部分：求解ARE得到反馈项，求解微分方程或利用系统动力学先验计算期望控制输入。反馈项稳定跟踪误差动力学，前馈项保证跟踪轨迹。传统离线方法，需要时间上向后计算和完整系统动力学。
在以往文章中采用动力学可逆概念以求得前馈控制输入，RL以求解最优反馈控制输入。但动力学可逆需要控制输入是可逆的，且具有完全的系统动力学知识。初始化可容许控制策略，仅利用测量数据和指令生成器在线学习最优控制策略。

假设(A,B)可稳定的，(A, $\sqrt{Q}C$ )可观的。给出LQT的无限时域下性能指标，标准解由反馈输入部分（依赖系统状态）加上前馈输入部分（依赖参考轨迹）。性能指标函数在参考轨迹不接近0情况下是无界的，因为前馈控制输入和性能指标的一项是取决于参考轨迹的。则以上的标准解方法只能在参考轨迹是渐近稳定情况下使用。

增广ARE的因果解，指令生成器生成参考轨迹F，包括阶跃、正弦波、加速度信号。假设F是Hurwitz，给出折扣因子的值函数。
Lemma1给出LQT值函数的二次型，根据系统动力学和参考轨迹动力学 $u=Kx+K'y_d$ ，y_d为期望参考轨迹
在这里插入图片描述
参考轨迹有界（即F稳定）情况下，L3有界。参考指令动力学F不稳定时，P_22则无界。定义增广系统，以及其LQT贝尔曼方程和哈密顿方程。Theorem1给出LQT的因果解，u=K_1X和 $K_1=-R^{-1}B_1^{T}P$ ，P满足增广LQT的ARE。Lemma2给出LQT的ARE的存在解:A、B可稳定，则 $F-0.5{\gamma}I$ 是稳定的。Lemma3给出定义P满足LQT的贝尔曼方程解时的最优控制和哈密顿函数。
Theorem2给出LQT ARE解的稳定性，最优控制使得误差动力学系统稳定。选取合适的折扣因子和权重Q可使得跟踪误差满足要求。
Algorithm1给出离线策略迭代求解LQT问题，初始化可容许的控制策略
在这里插入图片描述
D. Vrabie, and F.L. Lewis, “Neural network approach to continuous-time direct adaptive optimal control for partially unknown nonlinear systems的IRL（积分强化学习算法）扩展到LQT问题，以Model-free RL algorithm获得IRL的贝尔曼方程

Lemma4给出增广系统的李雅普诺夫方程等价于IRL 贝尔曼方程，两者相同值函数
Algorithm 2给出在线IRL算法求解LQT，初始化可容许控制策略
在这里插入图片描述

P满足迭代收敛标准后，得到最优控制器。在一定的PE条件下，利用LS可确定IRL Bellman Equation的唯一解，当初始控制策略是稳定的，则后续迭代控制策略也是稳定的，且收敛到最优。

matlab仿真

代码私聊

LucienLSA

关注

54
点赞
踩
34

收藏

觉得还不错? 一键收藏
1
评论
Linear Quadratic Tracking Control of Partially-Unknown Continuous-time Systems using RL

原系统状态和指令生成器的值函数形式是二次型的。LQT贝尔曼方程和LQT的ARE方程，以求解LQT方程。采用积分RL算法在系统漂移动力学或者指令生成器未知的情况下在线求解LQT的ARE方程解，并给出收敛性分析。传统LQT解最优控制由两部分：求解ARE得到反馈项，求解微分方程或利用系统动力学先验计算期望控制输入。反馈项稳定跟踪误差动力学，前馈项保证跟踪轨迹。传统离线方法，需要时间上向后计算和完整系统动力学。在以往文章中采用动力学可逆概念以求得前馈控制输入，RL以求解最优反馈控制输入。
复制链接

扫一扫