Generalized Policy Iteration-based Reinforcement Learning Algorithm for Optimal Control of Unknown Discrete-time Systems ,2021,Mingduo Lin, Bo Zhao, Derong Liu,XiLiu, Fangchao Luo
提出基于广义策略迭代的强化学习算法,处理在无限时域和完全未知系统动力学下非线性离散时间系统的最优控制问题。两个步骤获得迭代值函数和迭代控制策略,采用时间差分法学习获得迭代Qfunction,采用策略梯度法获得迭代控制策略。分析了在广义策略迭代算法的收敛性和最优性。评价网络近似迭代Qfunction,动作网络近似迭代控制策略。
根据W. Guo, J. Si, S. Mei, Policy approximation in policy iteration approximate dynamic programming for discrete-time nonlinear systems 值函数收敛到近最优值函数,考虑近似误差。B. Luo, D. Liu, T. Huang, D. Wang, Model-free optimal tracking control via critic-only Q-learning则是基于Qlearning的PI方法求解Model-free最优控制问题。
与D. Liu, Q. Wei, P. Yan, Generalized policy iteration adaptive dynamic programming for discrete-time nonlinear systems算法思想类似,主要不同a:基于Qfunction的控制器完全由离线的输入输出数据得到;b:PG(Policy Gradient)方法直接最优化控制策略。
根据B. Luo, D. Liu, H. N. Wu, D. Wang, F. L. Lewis, Policy gradient adaptive dynamic programming for data-based optimal control中的Policy gradient方法优点是放松系统动力学的要求,避免模型网络近似误差,使用离线数据直接得到最优控制。
Algorithm1给出GPI-based RL algorithm,包括初始化可容许控制策略、计算初始迭代Qfunction和迭代控制,策略评估和策略提升。
Lemma1给出根据策略评估和策略提升,当迭代次数为无穷时的控制策略的极限值等价于策略梯度(PG)收敛到极限的值。Theorem1给出迭代值函数的单调不增(内迭代和外迭代)
Assumption2给出存在一有界的正常数,最优值函数与效用函数关系。Theorem 2给出迭代值函数的收敛性和最优性。
后续介绍评价网络和动作网络函数,以及网络权重向量,迭代值函数的近似误差。