Policy Gradient Adaptive Dynamic Programming for Data-Based Optimal Control

Policy Gradient Adaptive Dynamic Programming for Data-Based Optimal Control Biao Luo, Member, IEEE, Derong Liu, Fellow, IEEE, Huai-Ning Wu, Ding Wang, Member, IEEE,andFrankL.Lewis,Life Fellow, IEEE

对离散时间非线性系统提出model-free最优控制问题,基于数据的PGADP算法设计最优控制器。使用离散和在线数据而非系统模型,该PGADP以梯度下降法改进控制策略。构造Qfunction收敛到最优,基于actor-critic和加权残差法。
model-based系统模型完全已知,ADP近似求解HJB(最小二乘法);partially model-based系统模型部分已知,ADP根据数据和系统模型近似设计控制器;model-free系统模型完全未知,基于数据学习控制策略,由模型网络近似系统模型,评价网络近似值函数,动作网络近似控制策略。文章基于Qlearning方法理论和对model-free系统发展。
在这里插入图片描述
对非线性离散系统求解的最优值函数和最优控制策略,难以对非线性微分方程求解,且系统模型未知。
Definition1给出可容许控制定义
构造Qfunction,给出最优Qfunction和最优控制策略表达。Algorithm1为PGADP算法,a:离线或异策略算法,通过执行其他探索性行为策略实现最优控制策略;在线或同策略算法,评估目标控制策略需要使用该策略产生系统的数据,这带来探索不足的问题。b:策略梯度方法,仅需要一步更新控制策略。而传统的ADP方法,需要贪婪的策略提升,即控制策略在当前值函数下进行更新得到最优控制策略,通常不切实际和巨大的计算。c:PGADP算法是基于数据。
证明PGADP算法收敛,引入哈密顿函数,在可容许控制策略下给出迭代值函数。
Theorem1给出在可容许控制下,迭代控制策略由Algorithm1给出,假设值函数和权重的微分存在,定义哈密顿函数的微分常数,得到迭代控制策略下
H ( x k , u ( i + 1 ) , V ( i ) ) ≤ 0 ; H(x_{k},u^{(i+1)},V^{(i)})\leq0; H(xk,u(i+1),V(i))0; u ( i ) ( x ) ∈ U ( X ) , ∀ i . u^{(i)}(x)\in\mathfrak{U}(\mathcal{X}),\forall i. u(i)(x)U(X),i.
证明引入二阶Taylor多项式,对哈密顿函数的二阶Taylor多项式,对微分项常数,由一元二次不等式,使迭代控制策略下哈密顿函数单调不增性。对迭代值函数构造做差的李雅普诺夫函数,系统渐进稳定,数学归纳法证明后续迭代控制策略满足也是可容许的。
Theorem2给出由Algorithm1产生的迭代Qfunction和控制策略,满足Qfunction的单调不增且,迭代Qfunction大于等于最优Qfunction,迭代Qfunction最终收敛到最优Qfunction。
PGADP的基本框架
在这里插入图片描述
( x , u , x ′ ) (x,u,x') (x,u,x)由实际系统测量得到的数据,x’是在控制u和状态x下的下一个系统状态。实际PGADP自适应控制下,x’由传感器测量,而不是根据系统模型f。
以上的PGADP自适应控制是在线方法,其算法的数据部分包括两种(offline dataset和online dataset)。在PGADP算法开始前采集离线数据集(任意控制域下从实际系统采样)。 S M S_M SM为离线数据集, s k s_k sk为在线数据集

Actor-CriticNN以计算未知的迭代Qfunction和迭代控制策略。
在这里插入图片描述
Qfunction和控制策略近似为
在这里插入图片描述
PGADP中策略评估和策略提升对评价网络权重和动作网络权重进行更新。定义残差
在这里插入图片描述
具体采用加权残差法,使加权残差为0
在这里插入图片描述
离线和在线数据集下评价网络权重向量计算
在这里插入图片描述
同理动作网络权重向量计算
在这里插入图片描述
在这里插入图片描述
动作网络权重更新
在这里插入图片描述
离线数据信息收集
在这里插入图片描述
在线数据信息收集
在这里插入图片描述
由以上权重更新需要 ( A k − B k ) (\mathcal{A}_k-\mathcal{B}_k) (AkBk) F k \mathcal{F}_k Fk是可逆的。
离线数据集获得方法a:增加大小M;b:采集具有不同初始状态的系统数据;c:采用输入信号(随机噪声、频率足够的正弦函数噪声)。
Theorem3给出在评价网络权重向量更新下,存在常数
在这里插入图片描述
Algorithm2为基于PGADP的自适应控制步骤,收集离线数据,计算初始参数,在可容许控制下,策略评估和策略提升。
在线数据实时反映系统信息,在线调整神经网络权重,但在线数据按单一轨迹收集的数据,不能实现探索充分问题。而离线数据从不同轨迹收集数据,可通过任意探索性控制策略。
离线数据不仅初始化权重,还能实时更新NN权重,PGADP算法的自适应控制方法离线/异策略学习,允许任意数据的学习,且离线数据包括足够多的系统动力学信息。

总结

  1. PGADP可用于非仿射非线性系统,而大多数ADO方法适用于线性系统和仿射非线性系统。
  2. PGADP是异策略学习算法。
  3. 策略梯度法实现策略改进,而传统的方法则是贪婪策略改进法,其适用于线性和仿射非线性系统。
  4. PGADP基于Qfunction的状态动作值函数,而其他方法则是状态值函数。
  5. PGADP采用离线系统数据集求解最优控制策略,而其他传统方法则是根据当前系统数据,使用后便丢失。
  6. PGADP针对离散系统
gradient-based neural dag learning(梯度优化的神经有向无环图学习)是一种用于构建和训练神经网络结构的方法。它通过学习网络的拓扑结构,即神经网络的连接方式和层次结构,来优化网络性能。 传统的神经网络结构通常是由人工设计的,而在gradient-based neural dag learning中,网络的结构可以通过梯度下降算法进行优化。该方法的核心思想是在训练过程中不仅学习网络的权重参数,还学习网络的拓扑结构。 在gradient-based neural dag learning中,网络的结构可以表示为有向无环图(DAG),图中的节点表示网络中的层或操作,边表示连接。我们可以用一组变量来表示每个节点的状态和连接关系,通过优化这些变量,实现网络结构的优化。 具体地,gradient-based neural dag learning通过计算网络中每个操作或层对目标函数的梯度来优化变量。在梯度下降的过程中,网络的结构随着反向传播算法的迭代而逐渐优化。这种方法可以使得网络自动完成结构的搜索和选择,提高了网络的表达能力和性能。 由于gradient-based neural dag learning可以自动进行网络结构的学习和优化,它可以减轻人工设计网络结构的负担,并且在处理复杂任务时能够获得更好的性能。然而,由于网络结构的搜索空间非常大,优化过程可能会很复杂,需要大量的计算资源和时间。 总之,gradient-based neural dag learning是一种通过梯度下降优化网络结构的方法,能够自动学习和优化神经网络的拓扑结构,提高网络性能。这种方法在深度学习领域有着广泛的应用潜力,并且为网络的设计和训练带来了新的思路和方法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值