强化学习与最优控制(基于模型Riccati方程；无模型Q函数求解）草稿中未完成

campingmxd

已于 2023-08-17 14:53:26 修改

阅读量938

点赞数 1

分类专栏：自动控制理论文章标签：算法 matlab

于 2023-08-07 16:45:13 首次发布

本文链接：https://blog.csdn.net/campingmxd/article/details/132149489

版权

自动控制理论专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1 简介

LQR (linear quadratic regulator)即线性二次型调节器，是最优控制中的一种, 其对象是现代控制理论中以状态空间形式给出的线性系统，而目标函数为对象状态和控制输入的二次型函数。LQR最优设计是指设计出的状态反馈控制器K 要使二次型目标函数J取最小值，目前LQR结合强化学习实现了无模型最优控制，也称为自适应动态规划，其优点在于不需要依赖系统动态信息去实现最优控制。

2 基础概念

在计算资源有限的情况下，如何获得获得近似解。并且要求找到的近似解达到一定的性能需求。而这类方法通常被统称为强化学习，有时也会被叫做近似动态规划或神经动态规划。强化学习指的是一个参与者或代理，它与环境相互作用，并根据对其行为的响应所接收到的刺激来修改其行为或控制策略。因为依赖来自环境的评估信息，故可以称为基于行动的学习。强化学习也可以指行为与奖励或惩罚之间的因果关系。

一类强化学习方法是基于“行为-评价”结构，其中行为组件将操作或控制策略应用到环境中，而评价组件评估该操作的价值。对价值的评估，可以使用各种方案来修改操作，因为新策略产生的值比之前取得的值更好。“行为-评价”结构包含两个步骤：第一，由评价组件进行策略评估；第二，进行控制策略的改进。

在广义上，生物的生存范围很窄【 [Werbos 1974,1989, 1991, 1992], [Bertsekas 1996], [Sutton and Barto1998], [Cao 2009].】，大多数物种可利用的资源也很少。因此，大多数生物都以一种最优的方式来保存资源，同时实现它们的目标。最优的行动可能是基于最小的燃料、最小的能量、最小的风险、最大的回报等等。因此，研究具有行动-评价结构的强化学习系统很有意义，其中评价基于某种最优性标准评估当前政策的价值。学习过程被提升到一个更高的层次，不再关注动力系统的细节，而是一个性能指标，量化闭环控制系统的运行有多接近最优。在这种方案中，强化学习是一种通过观察环境对非最优控制策略的响应来学习最优行为的方法。

强化学习技术，特别是被称为近似或自适应动态规划(ADP)的一系列技术，可以应用于人类工程系统的反馈控制。赛

自适应动态规划的大量研究是针对离散时间(Discrete-Time System)系统进行的。本篇报告讨论DT系统，目的是用线性二次调节器(Linear Quadratic Regulator,LQR)的例子，来说明自适应动态规划在反馈控制理论的设置中不需要依赖系统的动态信息来实现最优控制。