Data-driven ADP schemes for non-zero-sum games of unknown DT nonlinear systems

本文探讨了数据驱动的适应性动态编程算法在处理完全未知的离散时间多玩家非零和博弈问题中的应用,包括基于Nash均衡和稳定性条件的博弈构建、策略迭代和神经网络识别。通过最小化性能指标,算法能逼近最优解并处理系统识别误差。此外,还扩展到了跟踪控制问题,考虑了折扣因子以确保值函数的有界性。
摘要由CSDN通过智能技术生成

Data-driven adaptive dynamic programming schemes for non-zero-sum games of unknown discrete-time nonlinear systems,2018, He Jiang, Huaguang Zhang∗, Kun Zhang, Xiaohong Cui

博弈论、最优控制和强化学习解决离散时间 multi-player 非零和博弈问题。非零和博弈问题的解是耦合黎卡提方程和HJ方程的结果,需要精确数学模型,难以解析求解。实际中系统动力学不能精确获得甚至不可用,传统基于模型方法不可用。针对完全未知的multi-player系统提出data-based ADP算法。利用Nash equilibrium和平稳性条件构造离散时间multi-player非零和博弈,利用策略迭代算法近似最优解。在线ADP算法结合NN identification,仅需要系统数据而不是真实系统模型。提出基于数据驱动的action-dependent HDP(ADHDP或QLearning)方法,克服identification learning过程中的近似误差。
输入输出系统数据可被测量和利用,数据驱动方法1:直接使用系统数据设计最优控制器;2:通过神经网络重构数据驱动系统结构近似实际系统。本文采用ADP算法和数据驱动技术处理model-freeDT非零和博弈问题,纳什平衡点和平稳性条件推导和构建DT非零和博弈问题,提出PI方法,学习和近似迭代的最优解。比较identification-based和data-driven两种ADP算法。

DT N-player system
在这里插入图片描述
性能指标函数
在这里插入图片描述
Definition1给出可容许控制策略
Assumption1给出N-player system可控,至少存在一组可容许控制策略,可出可容许状态反馈控制策略,值函数表达式和最优值函数。
Definition2给出纳什平衡定义,满足不等式时,一组控制策略被认为是N-player game的纳什平衡点
在这里插入图片描述
Lemma1给出对N-player system值函数,基于最优的平稳性条件,最优控制策略为
在这里插入图片描述
最优值函数满足耦合方程
在这里插入图片描述
Theorem1给出在Assumption1下,最优值函数满足耦合方程,最优控制策略为以上形式
在这里插入图片描述
证明,最优值函数为李雅普诺夫函数,系统渐进稳定;
给出算法流程
在这里插入图片描述
对以上迭代步骤,需要f(x)和g(x),完全未知系统,model-based是无效的,需采用神经网络identification

神经网络近似multi-player system
在这里插入图片描述
NN-based identification
在这里插入图片描述
最小化性能指标并调整权重
在这里插入图片描述
神经网络近似误差有界,存在正常数
在这里插入图片描述
Theorem2根据identification scheme 验证未知multi-player system并更新identifierNN 权重,满足Assumption2,NN 权重近似误差是有界的,且identification error是渐进稳定的。
在这里插入图片描述
神经网络近似评价网络
在这里插入图片描述
值函数近似,定义NN approximation error η i ( k ) \eta_i(k) ηi(k)
在这里插入图片描述
k表示当前时刻,系统第k步数据,测量x(k)。对完全未知的multi-player systems f(x)和g(x)难以获得未来x(k+1)的系统数据。则需要identifier NN获得 x ^ ( k + 1 ) \hat{x}(k+1) x^(k+1)
定义残差向量
在这里插入图片描述
评价网络权重调整
在这里插入图片描述
同理动作网络
在这里插入图片描述
误差定义
在这里插入图片描述
动作网络权重更新
在这里插入图片描述
根据测量系统数据,神经网络重构系统动力学,但不可避免带来NN approximation errors

action-dependent HDP(Qlearning) 的NN 学习方法
评价网络描述为
在这里插入图片描述
其评价网络输入 z c i ( k ) z_{ci}(k) zci(k)由x(k), u i ( k ) u_i(k) ui(k) u ( − i ) ( k ) u_{(-i)}(k) u(i)(k)组成。
误差定义为
在这里插入图片描述
最小化误差性能指标
在这里插入图片描述
同理梯度下降法更新权重
在这里插入图片描述
动作网络
在这里插入图片描述
误差定义为
在这里插入图片描述
基于梯度下降权重更新
在这里插入图片描述
基于NN的ADHDP算法,未涉及f(x)和g(x),仅使用当前时刻k和历史时刻k-1的数据
在这里插入图片描述

扩展到跟踪控制问题中,跟踪误差动力学为
在这里插入图片描述
增广系统
在这里插入图片描述
以增广系统的值函数为
在这里插入图片描述
可推得最优控制策略和最优值函数
在这里插入图片描述
对值函数引入折扣因子,因为参考系统状态轨迹通常不趋于零。无折扣因子可能使得跟踪控制策略非零,值函数将无界。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值