General value iteration based RL for solving OTC problem of CT affine nonlinear systems

General value iteration based reinforcement learning for solving optimal tracking control problem of continuous–time affine nonlinear systems ,2017,Geyang Xiao, Huaguang Zhang , Yanhong Luo, Qiuxia Qu

对仿射非线性系统连续时间,采用广义值迭代法求解最优跟踪控制问题。提出假设放宽对初始可容许控制策略的限制条件。三种情况证明任意初始性能指标的收敛性。文章仿真以非线性弹簧质量阻尼器系统,采用神经网络分析文章内容有效性。
基于PI算法,初始可容许控制被认为是次最优控制,需要求解非线性偏微分方程。而VI算法不需要初始可容许控制,传统VI算法需要初始值函数为0。根据Q. Wei, D. Liu, Y. Xu, Neuro-optimal tracking control for a class of discretetime nonlinear systems via generalized value iteration adaptive dynamic programming approach是基于离散时间DT的广义VI方法解决OTCP问题。
Assumption1给出期望轨迹是有界的,且其动力学是locally Lipschitz function满足。Assumption2给出输入矩阵g(x)有界,且稳定状态控制由以下得出

在这里插入图片描述
稳态控制策略是固定的,且根据跟踪误差控制策略定义性能值函数。
在这里插入图片描述

因为期望轨迹是有界的,稳态状态控制一般非零,所以控制输入可能非零。尽管折扣因子能保证当跟踪误差和控制输入有界情况下,性能指标函数是有界,但跟踪误差的渐进稳定性不能保证。误差动力学系统表达式为
在这里插入图片描述
使以上值函数最小化。其误差动力学系统不仅与跟踪误差有关,还包括期望轨迹。构建增广系统动力学,将误差动力学和期望轨迹动力学结构。
在这里插入图片描述
以上(13)值函数为候选李雅普诺夫函数,对其微分,构造哈密顿函数。但满足最优值函数和最优跟踪误差控制时
在这里插入图片描述

Definition1给出可容许控制条件。广义值迭代算法方程。
在这里插入图片描述
Definition2给出控制的可积性。
Assumption4给出初始性能函数满足基于正常数最优值函数上下界;Assumption5给出基于正常数效用函数积分与最优值函数的上下界。
Theorem1给出在Assumption4迭代值函数的有界性, α < 1 \alpha<1 α<1。证明方法基于数学归纳
在这里插入图片描述
Theorem2给出在Assumption4, α \alpha α。同Theorem1
在这里插入图片描述
Theorem3给出在Assumption4, α > = 1 \alpha>=1 α>=1
在这里插入图片描述
Theorem4给出迭代值函数的收敛性,收敛到最优值函数。证明条件通过以上假定的正常数,广义VI算法初始任意半正定值函数,得到最优跟踪控制问题的解。
由于以上GVI算法是离线训练样本数据的迭代算法,使用在线方法求解最优跟踪控制问题需要PE条件。

三层BP神经网络,构造Actor-Critic网络,评价网络近似迭代值函数,动作网络近似迭代跟踪误差控制策略
Φ ( ξ ) = W φ ( Y ξ + b ) + ε ( ξ ) \Phi(\xi)=W\varphi(Y\xi+b)+\varepsilon(\xi) Φ(ξ)=Wφ(Yξ+b)+ε(ξ)
评价网络
V ^ i ( ξ ) = W c ( i ) φ ( Y c ( i ) ξ + b c ( i ) ) \hat{V}_i(\xi)=W_{c(i)}\varphi(Y_{c(i)}\xi+b_{c(i)}) V^i(ξ)=Wc(i)φ(Yc(i)ξ+bc(i))
动作网络
μ ^ i ( ξ ) = W μ ( i ) φ ( Y μ ( i ) ξ + b μ ( i ) ) \hat{\mu}_i(\xi)=W_{\mu(i)}\varphi(Y_{\mu(i)}\xi+b_{\mu(i)}) μ^i(ξ)=Wμ(i)φ(Yμ(i)ξ+bμ(i))
误差函数构造
e c ( i ) j ( ξ ) = W c ( i ) j φ ( Y c ( i ) j ξ + b c ( i ) j ) − ∫ t t + Δ t r ( ξ ( τ ) , μ ^ i − 1 ( τ ) ) d τ − V ^ i − 1 ( ξ μ ^ i − 1 ( t + Δ t ) ) \begin{aligned}e_{c(i)}^j(\xi)&=W_{c(i)}^j\varphi(Y_{c(i)}^j\xi+b_{c(i)}^j)-\int_{t}^{t+\Delta t}r(\xi(\tau),\hat{\mu}_{i-1}(\tau))\mathrm{d}\tau\\&-\hat{V}_{i-1}(\xi^{\hat{\mu}_{i-1}}(t+\Delta t))\end{aligned} ec(i)j(ξ)=Wc(i)jφ(Yc(i)jξ+bc(i)j)tt+Δtr(ξ(τ),μ^i1(τ))dτV^i1(ξμ^i1(t+Δt))
根据梯度下降法,构造评价网络最小二乘形式,定义其权重。定义动作网络的误差函数,同理权重。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值