Linear Quadratic Tracking Control of Partially-Unknown Continuous-time Systems using Reinforcement Learning,2014, Hamidreza Modares, Frank L. Lewis, Fellow, IEEE
原系统状态和指令生成器的值函数形式是二次型的。LQT贝尔曼方程和LQT的ARE方程,以求解LQT方程。采用积分RL算法在系统漂移动力学或者指令生成器未知的情况下在线求解LQT的ARE方程解,并给出收敛性分析。
传统LQT解最优控制由两部分:求解ARE得到反馈项,求解微分方程或利用系统动力学先验计算期望控制输入。反馈项稳定跟踪误差动力学,前馈项保证跟踪轨迹。传统离线方法,需要时间上向后计算和完整系统动力学。
在以往文章中采用动力学可逆概念以求得前馈控制输入,RL以求解最优反馈控制输入。但动力学可逆需要控制输入是可逆的,且具有完全的系统动力学知识。初始化可容许控制策略,仅利用测量数据和指令生成器在线学习最优控制策略。
假设(A,B)可稳定的,(A, Q C \sqrt{Q}C QC)可观的。给出LQT的无限时域下性能指标,标准解由反馈输入部分(依赖系统状态)加上前馈输入部分(依赖参考轨迹)。性能指标函数在参考轨迹不接近0情况下是无界的,因为前馈控制输入和性能指标的一项是取决于参考轨迹的。则以上的标准解方法只能在参考轨迹是渐近稳定情况下使用。
增广ARE的因果解,指令生成器生成参考轨迹F,包括阶跃、正弦波、加速度信号。假设F是Hurwitz,给出折扣因子的值函数。
Lemma1给出LQT值函数的二次型,根据系统动力学和参考轨迹动力学
u
=
K
x
+
K
′
y
d
u=Kx+K'y_d
u=Kx+K′yd,y_d为期望参考轨迹
参考轨迹有界(即F稳定)情况下,L3有界。参考指令动力学F不稳定时,P_22则无界。定义增广系统,以及其LQT贝尔曼方程和哈密顿方程。Theorem1给出LQT的因果解,u=K_1X和
K
1
=
−
R
−
1
B
1
T
P
K_1=-R^{-1}B_1^{T}P
K1=−R−1B1TP,P满足增广LQT的ARE。Lemma2给出LQT的ARE的存在解:A、B可稳定,则
F
−
0.5
γ
I
F-0.5{\gamma}I
F−0.5γI是稳定的。Lemma3给出定义P满足LQT的贝尔曼方程解时的最优控制和哈密顿函数。
Theorem2给出LQT ARE解的稳定性,最优控制使得误差动力学系统稳定。选取合适的折扣因子和权重Q可使得跟踪误差满足要求。
Algorithm1给出离线策略迭代求解LQT问题,初始化可容许的控制策略
D. Vrabie, and F.L. Lewis, “Neural network approach to continuous-time direct adaptive optimal control for partially unknown nonlinear systems的IRL(积分强化学习算法)扩展到LQT问题,以Model-free RL algorithm获得IRL的贝尔曼方程
Lemma4给出增广系统的李雅普诺夫方程等价于IRL 贝尔曼方程,两者相同值函数
Algorithm 2给出在线IRL算法求解LQT,初始化可容许控制策略
P满足迭代收敛标准后,得到最优控制器。在一定的PE条件下,利用LS可确定IRL Bellman Equation的唯一解,当初始控制策略是稳定的,则后续迭代控制策略也是稳定的,且收敛到最优。
matlab仿真
代码私聊