强化学习4——基于Actor-Critic的自适应PID控制器设计

最新推荐文章于 2024-10-23 02:48:34 发布

路漫求索_CUMT

最新推荐文章于 2024-10-23 02:48:34 发布

阅读量1w

点赞数 10

分类专栏：机器学习——强化学习文章标签：强化学习自适应PID

原文链接：https://cn.bing.com/academic/profile?id=90cadcfb406e0be76826a6c6ecc86a16&encoded=0&v=paper_preview&mkt=zh-cn

版权

机器学习——强化学习专栏收录该内容

12 篇文章

订阅专栏

注释：本博文内容来源于文献：Wang X, Cheng Y, Sun W, et al. A Proposal of Adaptive PID Controller Based on Reinforcement Learning[J]. Journal of China University of Mining and Technology, 2007, 17(1): 40-44.

一、问题背景

在国内外大量的强化学习研究中，大部分把系统的状态看作有限的集合，采用查表的形式存储和计算其值函数。但是在实际问题中，大多数系统的状态和动作都是大规模或者是连续的，表格无法表示这些状态和动作，存在状态和动作变量的空间复杂性问题，即所谓的“维数灾难”。针对强化学习的连续空间表示问题，目前常采用模糊逻辑和神经网络等方法对状态进行离散化或泛化。

由于神经网络具有任意逼近、容错等特点，因此，用神经网络来逼近强化学习的评价函数和值函数，既可以存储所学过的经验和信息，也可以对没有学到的状态进行推广。执行器-评价器（AC：Actor-Critic）学习算法是一种重要的强化学习算法186]，它提供一种试图同时找到最优动作和最优期望的方式，在人工智能和智能控制等领域得到广泛应用。

二、基本Actor-Critic学习模型

图1 执行器一评价器学习模型

二、控制器结构框图

图1 基于强化学习的自适应PID控制器设计

整个控制系统包括两大部分：传统增量式PID、基于Actor-Critic的参数优化。两部分的功能如下：

传统增量式PID控制器：

（1）

由（1）可知，增量式PID控制器中关键参数为KI、KP、KD。因此如何调节这三个参数至关重要。

基于Actor-Critic的参数优化：利用强化学习的“试错”机制，经过不断尝试可以获得最优的一组控制参数，这里采用的智能体为Actor-Critic型的智能体。

二、关键技术

2.1 Actor-Critic型智能体

图2 Actor-Critic学习模型

整个智能体包括两部分：Actor和Critic，其中Actor用于更新策略函数，而Critic更新价值函数（利用TD法）。

Barto和Sutton提出的Actor-Critic学习算法，亦称自适应启发评价算法（adaptive heuristic critic，AHC），它提供了一种试图同时找到最优动作和期望值的方式。典型地，Actor-Critic学习模型主要由两个部分组成：动作评价网络（action evaluation network，AEN）或称Critic，和动作选择网络（action selection network，ASN）或称Actor。

图2给出了Actor-Critic学习模型的体系结构。由状态向量和环境提供的外部强化信号（立即回报）作为评判网络的输入，值函数的估计为输出，对动作网络的输出动作进行评价。Actor-Critic学习算法同时对值函数和策略进行估计，其中Actor用于进行策略估计，而Critic用于值函数估计。评价器产生的标量信号TD误差（内部强化信号）用于驱动评价器和行动器的所有学习，即Actor与Critic均采用TD法来学习策略函数和值函数。