Event-Triggered Control of Discrete-Time Zero-Sum Games via Deterministic Policy Gradient Adaptive Dynamic Programming ,2022,Yongwei Zhang ,BoZhao , Senior Member, IEEE, Derong Liu , Fellow, IEEE, and Shunchao Zhang
离散时间非线性系统处理零和博弈问题,文章提出基于确定性策略梯度(PGADP)算法的事件触发控制(ETC),采用输入和输出数据,ETC控制方法使用梯度下降更新控制策略和扰动策略。对比传统的PGADP控制方法,为确保系统输入和状态稳定性,在触发瞬间对控制策略和扰动策略进行非周期调整,以减小计算和通信负担。actor-critic-disturbance框架以获得最优控制策略和最坏扰动策略,以保证闭环系统输入-状态的稳定性。基于经验重放,提出新的神经网络权重更新规则,保证权重估计误差是最终一致有界的。
零和博弈问题两者互相竞争,目标是完全相反的,一个最大化性能指标,则另一个最小化性能指标。而非零和博弈问题,各有自己目标,两者不仅竞争,而且合作
ETC方法更新控制策略,仅在实际系统状态与采样系统状态之间的误差违反触发条件更新控制策略。神经网络权重和控制策略在触发时刻进行调整以减少代价。大多数DT零和博弈问题是时间触发的,控制器执行周期的,消耗大量计算资源。
提出基于数据的确定性梯度下降事件触发控制方法,是策略梯度PG控制方法扩展,解决零和博弈问题。不需要建立模型网络
actor-critic-disturbance框架
DPGETC控制策略,动作状态函数即Qfunction
分别对Q函数进行偏导,求得最优控制策略,最坏扰动策略
评价网络、动作网络和扰动网络的设置,Qfunction偏梯度更新控制策略和扰动策略。随机梯度策略SPG适用状态和动作空间,而确定梯度策略DPG适用状态空间。
DPG控制方法是基于数据方法,使用Qfunction的梯度更新控制策略,而不需要系统函数。仿射和非仿射系统
传统ADP在使用数据后即丢弃数据,忽视经验和先验知识。经验重放ER技术,对数据重用,提高利用效率。
Value function的期望回报是根据状态z和策略
ω
\omega
ω,Qfunction的期望回报是根据状态z动作a和策略
ω
\omega
ω
Assumption And Definition 给出状态z的集合,ISS-李雅普诺夫函数
Lemma1给出关于ISS-lyapunov函数的不等式条件
Lemma2给出ISS-lyapunov函数的状态集合
Theorem1给出系统满足ISS-lyapunov函数,存在连续函数满足以下,则系统是ISS
Lemma3给出在Assumption2和ISS-lyapunov函数下,满足触发条件时,保证系统是ISS的
DT系统引入事件触发机制,时间间隔始终是采用间隔t的整数倍。即使事件在每个采用时间被触发,最小时间被触发,Zeno行为不会发生。
Assumption3给出激活函数评价网络误差,最优权重的有界性
Theorem2给出评价网络、动作网络和扰动网络,其网络权重误差是最终一致有界的UUB。证明根据网络权重更新,选择lyapunov函数形式。复杂
l
1
和
l
2
l_1和l_2
l1和l2触发条件,对控制性能有重要,确定触发边界,若触发边界太小,控制输入更新频繁,造成大量计算负担;若触发边界太大,控制输入更新频率 低,系统可能不稳定。合适参数权衡控制性能和计算负担。
通过试错法"trial and error"选择神经网络结构和历史数据。
事件发生器用于监测事件触发误差,一旦超过触发边界,事件被触发且当前状态作为新的采样状态进行采样。
DPGETC控制方法的零和博弈问题针对未知非仿射非线性系统,不需要NN模型,控制器非周期更新,减少通信和计算负担。
展望,对闭环系统稳定性,需要对本文假设进行放宽。事件触发机制要求硬件设备监测,触发条件是否满足以实时触发下一次采样。进一步提出自触发self-triggered控制方法,根据最新触发瞬间和系统动力学计算下一个采样时间