Data-driven adaptive dynamic programming schemes for non-zero-sum games of unknown discrete-time nonlinear systems,2018, He Jiang, Huaguang Zhang∗, Kun Zhang, Xiaohong Cui
博弈论、最优控制和强化学习解决离散时间 multi-player 非零和博弈问题。非零和博弈问题的解是耦合黎卡提方程和HJ方程的结果,需要精确数学模型,难以解析求解。实际中系统动力学不能精确获得甚至不可用,传统基于模型方法不可用。针对完全未知的multi-player系统提出data-based ADP算法。利用Nash equilibrium和平稳性条件构造离散时间multi-player非零和博弈,利用策略迭代算法近似最优解。在线ADP算法结合NN identification,仅需要系统数据而不是真实系统模型。提出基于数据驱动的action-dependent HDP(ADHDP或QLearning)方法,克服identification learning过程中的近似误差。
输入输出系统数据可被测量和利用,数据驱动方法1:直接使用系统数据设计最优控制器;2:通过神经网络重构数据驱动系统结构近似实际系统。本文采用ADP算法和数据驱动技术处理model-freeDT非零和博弈问题,纳什平衡点和平稳性条件推导和构建DT非零和博弈问题,提出PI方法,学习和近似迭代的最优解。比较identification-based和data-driven两种ADP算法。
DT N-player system
性能指标函数
Definition1给出可容许控制策略
Assumption1给出N-player system可控,至少存在一组可容许控制策略,可出可容许状态反馈控制策略,值函数表达式和最优值函数。
Definition2给出纳什平衡定义,满足不等式时,一组控制策略被认为是N-player game的纳什平衡点
Lemma1给出对N-player system值函数,基于最优的平稳性条件,最优控制策略为
最优值函数满足耦合方程
Theorem1给出在Assumption1下,最优值函数满足耦合方程,最优控制策略为以上形式
证明,最优值函数为李雅普诺夫函数,系统渐进稳定;
给出算法流程
对以上迭代步骤,需要f(x)和g(x),完全未知系统,model-based是无效的,需采用神经网络identification
神经网络近似multi-player system
NN-based identification
最小化性能指标并调整权重
神经网络近似误差有界,存在正常数
Theorem2根据identification scheme 验证未知multi-player system并更新identifierNN 权重,满足Assumption2,NN 权重近似误差是有界的,且identification error是渐进稳定的。
神经网络近似评价网络
值函数近似,定义NN approximation error
η
i
(
k
)
\eta_i(k)
ηi(k)
k表示当前时刻,系统第k步数据,测量x(k)。对完全未知的multi-player systems f(x)和g(x)难以获得未来x(k+1)的系统数据。则需要identifier NN获得
x
^
(
k
+
1
)
\hat{x}(k+1)
x^(k+1)
定义残差向量
评价网络权重调整
同理动作网络
误差定义
动作网络权重更新
根据测量系统数据,神经网络重构系统动力学,但不可避免带来NN approximation errors
action-dependent HDP(Qlearning) 的NN 学习方法
评价网络描述为
其评价网络输入
z
c
i
(
k
)
z_{ci}(k)
zci(k)由x(k),
u
i
(
k
)
u_i(k)
ui(k)和
u
(
−
i
)
(
k
)
u_{(-i)}(k)
u(−i)(k)组成。
误差定义为
最小化误差性能指标
同理梯度下降法更新权重
动作网络
误差定义为
基于梯度下降权重更新
基于NN的ADHDP算法,未涉及f(x)和g(x),仅使用当前时刻k和历史时刻k-1的数据
扩展到跟踪控制问题中,跟踪误差动力学为
增广系统
以增广系统的值函数为
可推得最优控制策略和最优值函数
对值函数引入折扣因子,因为参考系统状态轨迹通常不趋于零。无折扣因子可能使得跟踪控制策略非零,值函数将无界。