强化学习与最优控制(基于模型Riccati方程;无模型Q函数求解)草稿中未完成

1 简介

       LQR (linear quadratic regulator)即线性二次型调节器,是最优控制中的一种, 其对象是现代控制理论中以状态空间形式给出的线性系统,而目标函数为对象状态和控制输入的二次型函数。LQR最优设计是指设计出的状态反馈控制器K 要使二次型目标函数J取最小值,目前LQR结合强化学习实现了无模型最优控制,也称为自适应动态规划,其优点在于不需要依赖系统动态信息去实现最优 控制。

2 基础概念

在计算资源有限的情况下,如何获得获得近似解。并且要求找到的近似解达到一定的性能需求。而这类方法通常被统称为强化学习,有时也会被叫做近似动态规划或神经动态规划。强化学习指的是一个参与者或代理,它与环境相互作用,并根据对其行为的响应所接收到的刺激来修改其行为或控制策略。因为依赖来自环境的评估信息,故可以称为基于行动的学习。强化学习也可以指行为与奖励或惩罚之间的因果关系。

一类强化学习方法是基于“行为-评价”结构,其中行为组件将操作或控制策略应用到环境中,而评价组件评估该操作的价值。对价值的评估,可以使用各种方案来修改操作,因为新策略产生的值比之前取得的值更好。“行为-评价”结构包含两个步骤:第一,由评价组件进行策略评估;第二,进行控制策略的改进。

在广义上,生物的生存范围很窄【 [Werbos 1974,1989, 1991, 1992], [Bertsekas 1996], [Sutton and Barto1998], [Cao 2009].】,大多数物种可利用的资源也很少。因此,大多数生物都以一种最优的方式来保存资源,同时实现它们的目标。最优的行动可能是基于最小的燃料、最小的能量、最小的风险、最大的回报等等。因此,研究具有行动-评价结构的强化学习系统很有意义,其中评价基于某种最优性标准评估当前政策的价值。学习过程被提升到一个更高的层次,不再关注动力系统的细节,而是一个性能指标,量化闭环控制系统的运行有多接近最优。在这种方案中,强化学习是一种通过观察环境对非最优控制策略的响应来学习最优行为的方法。

强化学习技术,特别是被称为近似或自适应动态规划(ADP)的一系列技术,可以应用于人类工程系统的反馈控制。赛

自适应动态规划的大量研究是针对离散时间(Discrete-Time System)系统进行的。本篇报告讨论DT系统,目的是用线性二次调节器(Linear Quadratic Regulator,LQR)的例子,来说明自适应动态规划在反馈控制理论的设置中不需要依赖系统的动态信息来实现最优控制。

3 利用迭代算法求解离散时间Riccati方程(基于模型)

3.1  贝尔曼最优策略

为了便于分析,人们通常考虑一类用非线性动力学描述的离散时间系统的仿射状态空间差分方程形式

(1)

定义一个控制策略

,这种映射也称为反馈控制器,是下文的反馈控制基础。

一个示例的策略是线性状态变量反馈。目标的最优行为的概念是通过定义一个性能度量或成本函数来获得的

(2)

控制动作是规定的反馈控制策略。函数是衡量一步控制成本的指标,越小越好。代价函数,一个标准形式的二次能量函数,要求Q和R是正定的。假设系统在是稳定的,存在一个控制使闭环系统在Ω上渐近稳定。被称作可容许的有限代价。

对于任何容许的控制策略,称为它的成本或价值。值较小的控制策略被认为比其他策略更好。重要的是要注意,给定任何可接受的政策,其价值可以通过计算无限和来确定(2)式。

最优控制理论的目标是选择成本最小的策略然后给出最优控制。对于每一步成本,不是简单地最小化其中一步,而是要最小化所有的成本和。

这将用到贝尔曼最优原则与动态规划,将(2)式改写为

(3)

也就是说,不需要计算(2)的无限和,而是可以求解差分方程,以获得使用当前策略的值。

这是一个非线性李亚普诺夫方程,也就是Bellman方程。用贝尔曼方程评估当前策略的价值是开发强化学习技术的第一个关键概念。

阅读文献,可以得知哈密顿方程的定义为

(4)

而贝尔曼方程要求与规定策略相关的哈密顿式为0,故最优值可以用贝尔曼方程写成

(5)

贝尔曼原则是最优控制的基石,并指出“无论初始状态与初始决策如何,对于先前决策所形成的状态而言,其以后的所有决策应构成最优策略”,就方程而言,这意味着

(6)

这被称为贝尔曼最优方程,或离散时间Hamilton-Jacobi-Bellman (HJB)方程。这样就有了最优策略

             (7)

使用这类方程确定最优控制器比使用(5)在计算方面要容易得多,因为它们在最小化参数中包含最优值。

k+1时刻到式(3)的最优策略来确定k时刻的最优策略,贝尔曼原理给出了一个求解最优控制问题的逆时间过程。它是动态规划算法在控制系统理论、运筹学和其他领域广泛使用的基础。这些都是离线规划方法。

1.2  策略迭代、数值迭代与不动点方程

1.2.1  策略迭代(Policy Iteration)算法

选择任意允许的(即稳定的)控制策略,使用贝尔曼方程确定当前策略的值

(8)

确定使用改进的策略

(9)

如果效用具有特殊形式,且动态为(1),则策略改进如下

(10)

实际上,可以证明贝尔曼方程是一个不动点方程。也就是说,给定一个可容许策略,有一个唯一的不动点和以下收缩映射

(11)

可以从任何开始迭代,能得到,因此,可以将策略迭代步骤(8)替换为

(12)

每次迭代使用相同的策略进行,直到收敛。

1.2.2  数值迭代(Value Iteration)算法

    选择任意控制策略,不一定是稳定的。使用以下方法更新值

(13)

确定使用改进的策略

(14)

事实上,进一步思考,可以看到,价值迭代是基于贝尔曼最优性方程(6)也是一个不动点方程。价值更新和策略改进的交错步骤是迭代与(6)相关的收缩映射的方法。一般来说,通过适当的公式,可以使用不动点方程作为在线强化学习算法的基础,该算法通过观察沿系统轨迹累积的数据进行学习。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值