Linear Quadratic Tracking Control of Partially-Unknown Continuous-time Systems using RL

Linear Quadratic Tracking Control of Partially-Unknown Continuous-time Systems using Reinforcement Learning,2014, Hamidreza Modares, Frank L. Lewis, Fellow, IEEE

原系统状态和指令生成器的值函数形式是二次型的。LQT贝尔曼方程和LQT的ARE方程,以求解LQT方程。采用积分RL算法在系统漂移动力学或者指令生成器未知的情况下在线求解LQT的ARE方程解,并给出收敛性分析。
传统LQT解最优控制由两部分:求解ARE得到反馈项,求解微分方程或利用系统动力学先验计算期望控制输入。反馈项稳定跟踪误差动力学,前馈项保证跟踪轨迹。传统离线方法,需要时间上向后计算和完整系统动力学。
在以往文章中采用动力学可逆概念以求得前馈控制输入,RL以求解最优反馈控制输入。但动力学可逆需要控制输入是可逆的,且具有完全的系统动力学知识。初始化可容许控制策略,仅利用测量数据和指令生成器在线学习最优控制策略。

假设(A,B)可稳定的,(A, Q C \sqrt{Q}C Q C)可观的。给出LQT的无限时域下性能指标,标准解由反馈输入部分(依赖系统状态)加上前馈输入部分(依赖参考轨迹)。性能指标函数在参考轨迹不接近0情况下是无界的,因为前馈控制输入和性能指标的一项是取决于参考轨迹的。则以上的标准解方法只能在参考轨迹是渐近稳定情况下使用。

增广ARE的因果解,指令生成器生成参考轨迹F,包括阶跃、正弦波、加速度信号。假设F是Hurwitz,给出折扣因子的值函数。
Lemma1给出LQT值函数的二次型,根据系统动力学和参考轨迹动力学 u = K x + K ′ y d u=Kx+K'y_d u=Kx+Kyd,y_d为期望参考轨迹
在这里插入图片描述
参考轨迹有界(即F稳定)情况下,L3有界。参考指令动力学F不稳定时,P_22则无界。定义增广系统,以及其LQT贝尔曼方程和哈密顿方程。Theorem1给出LQT的因果解,u=K_1X和 K 1 = − R − 1 B 1 T P K_1=-R^{-1}B_1^{T}P K1=R1B1TP,P满足增广LQT的ARE。Lemma2给出LQT的ARE的存在解:A、B可稳定,则 F − 0.5 γ I F-0.5{\gamma}I F0.5γI是稳定的。Lemma3给出定义P满足LQT的贝尔曼方程解时的最优控制和哈密顿函数。
Theorem2给出LQT ARE解的稳定性,最优控制使得误差动力学系统稳定。选取合适的折扣因子和权重Q可使得跟踪误差满足要求。
Algorithm1给出离线策略迭代求解LQT问题,初始化可容许的控制策略
在这里插入图片描述
D. Vrabie, and F.L. Lewis, “Neural network approach to continuous-time direct adaptive optimal control for partially unknown nonlinear systems的IRL(积分强化学习算法)扩展到LQT问题,以Model-free RL algorithm获得IRL的贝尔曼方程
在这里插入图片描述
Lemma4给出增广系统的李雅普诺夫方程等价于IRL 贝尔曼方程,两者相同值函数
Algorithm 2给出在线IRL算法求解LQT,初始化可容许控制策略
在这里插入图片描述
在这里插入图片描述
P满足迭代收敛标准后,得到最优控制器。在一定的PE条件下,利用LS可确定IRL Bellman Equation的唯一解,当初始控制策略是稳定的,则后续迭代控制策略也是稳定的,且收敛到最优。

matlab仿真

代码私聊

  • 54
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值