ADP-Based Optimal Control for Discrete-Time Systems With Safe Constraints and Disturbances

ADP-Based Optimal Control for Discrete-Time Systems With Safe Constraints and Disturbances,2024, Jun Ye , Hongyang Dong , Yougang Bian , Member, IEEE, Hongmao Qin, and Xiaowei Zhao , Member, IEEE

对受约束和干扰的离散时间系统提出新的ADP方法求解最优控制问题,安全策略迭代方法,将原策略提升转变为具有指定状态代价函数的限制最优化问题,以处理状态和输入限制。actor-ctitic-distutbance框架,处理受输入和状态限制的最优控制问题。抗干扰性的鲁棒安全性视为two-player零和博弈,actor和disturbance神经网络近似最优控制输入和干扰策略disturbance policy。

处理受限制的最优控制问题以保证被控系统的安全,传统ADP寻找最优解过程中难以同时管理状态和控制输入的约束。存在外部扰动导致控制对象偏离安全区域,则必须加以约束来寻求最优控制策略。

输入约束通常与执行器操作限制有关,而状态约束通常与自定义的安全区域有关。控制输入限制可以通过修改效用函数形式或actor网络中加入特定的饱和函数。忽略状态约束可能导致性能不佳,降低实际安全性。软限制指实际情况下一些安全约束通常不严格,但某些安全限制必须保持在安全范围内,因此需权衡安全性和最优性。

提出基于PI的SADP(安全自适应动态规划)方案,考虑状态和控制输入约束寻找最优控制。与其他文献相比将障碍函数(embed barrier functions)加入到性能函数中,以权衡最优性和安全性。

将受扰动的最优控制问题转化为two-player零和博弈问题,在非合作博弈问题下,一般方法仅将干扰视为与最优控制策略相互作用的附加策略,而状态和输入约束在整个博弈过程始终存在。保证寻找受扰动影响的最优控制策略,控制对象偏离安全区域的情形能得到有效约束,分析SADP在干扰作用的收敛特性。

在没有或具有准确的模型信息情况下,突出在处理实际情况下的鲁棒性。通过利用模型信息获得控制对象的未来状态。当面对不可用或不准确的模型信息,利用数据驱动,摆脱对模型的依赖。

值函数或代价函数加入扰动策略
在这里插入图片描述
β \beta β为正常数,表示对干扰的抗性
在这里插入图片描述
考虑扰动的最优控制问题视为two-player零和博弈问题,最坏的干扰为
在这里插入图片描述

为最优性和性能达到平衡,控制输入使用基于实际需求的平滑和饱和函数约束,受约束的控制输入有界。
以往文章中将非二次效用函数关于控制输入的性能函数,能将控制输入限制在安全区域内,但仅与状态惩罚项引入到性能指标以实现安全,但惩罚项是由经验自定义。
安全域定义
在这里插入图片描述
h ( ) ≤ h()\leq h()表示在状态的安全域内,目的是设计最优控制器保证状态甚至在干扰影响下进入非安全域。control barrier function (CBF)函数有效限制安全域内的状态。
在这里插入图片描述
则定义具有广义CBF的安全代价函数
在这里插入图片描述
单步安全约束(即未来步骤不考虑轨迹和边界信息),对那些状态需要受约束或接近安全边界的来说,系统很大程度将进入一个非安全区域。即无法确定下一步在系统上实现合适的控制输入。即使可容许控制策略下,仍然可能在未来步骤中导致不安全。
需要状态约束处理,一个聚合不等式,描述约束处理的要求。在最优控制中加入基于CBF的容许控制作为额外约束。贝尔曼方程求解最优控制,引入迭代松弛变量。受限的最优控制策略可定义为
在这里插入图片描述

动作干扰相关函数分析迭代性
在这里插入图片描述
以上为同策略控制。对零和博弈问题,最优控制策略和最坏干扰同策略
在这里插入图片描述
迭代代价函数、迭代控制和干扰策略
在这里插入图片描述
将代价函数和状态限制线性化,代价函数近似值函数
在这里插入图片描述

受限制代价函数
在这里插入图片描述
代价函数与当前控制策略有关,因为预测的状态约束是从当前控制策略得出。

为使近似策略可行,控制策略更新需受限,定义新策略和旧策略的距离
在这里插入图片描述
并进行近似线性化
在这里插入图片描述

PIM策略提升过程描述
在这里插入图片描述

Lemma1给出在固定控制策略、干扰控制策略和迭代代价函数下,其迭代代价函数将会收敛到最优。证明内部迭代满足单调不增。代价函数/值函数有界。
在这里插入图片描述
Theorem1给出受限制最优控制,迭代值函数、迭代控制和权重下,收敛到最优值。证明迭代值函数单调不增,PIM过程,设计的最小化迭代代价函数,具有可容许控制策略和最坏扰动策略。
为得到具限制代价函数,状态变量与系统模型信息应该传递到N步骤
在这里插入图片描述
多步法实施可提高成本函数评价的准确性和速度。

评价网络近似代价函数, W ^ i , j c \hat{W}_{i,j}^c W^i,jc表示内层循环和外层循环的隐藏层和输出层的权重, Y c Y_c Yc表示隐藏层和输入层的权重向量。
在这里插入图片描述
动作网络近似。 ζ ( ⋅ ) \zeta\left(\cdot\right) ζ()为外层网络的非线性激活函数
在这里插入图片描述
线性化的近似误差,可能不产生合适更新,不符合状态约束的控制策略。
将PIM策略提升过程修改为,对其可行域不存在,需要放宽条件
在这里插入图片描述

干扰网络(disturbance network)近似最坏的干扰策略
在这里插入图片描述
梯度下降,更新干扰网络的权重
在这里插入图片描述
受限制的代价函数网络
在这里插入图片描述
以下为考虑干扰,提出的SADP框架
在这里插入图片描述
给出近似误差,更新权重矩阵
在这里插入图片描述
Algorithm1给出SADP算法,初始化可容许控制策略和权重,数据集和学习率等,迭代实现PEV和PIM更新权重和受限代价函数。
在这里插入图片描述

模型信息准确时,进可推出控制对象的未来状态;模型信息不准确或不可用时,数据驱动法,控制对象与环境交互,根据数据学习最优控制策略。传统的CBF方法需要准确的模型信息设计安全约束,在模型信息不准确时会导致性能不佳或安全问题。

展望:model-free 离线策略SADP算法,考虑干扰下的最优控制问题

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值