【十八】线性二次型调节控制

本文介绍了线性二次调节控制(LQR)理论,包括状态-动作回报、有限边界马尔科夫决策过程和非线性模型的线性化方法。LQR问题中,状态和动作的回报函数被定义为一个二次型函数,通过Discrete Time Riccati Equation求解最优策略。此外,还讨论了如何在线性化非线性模型以解决控制问题。
摘要由CSDN通过智能技术生成

状态-动作回报 State-action Rewards

在之前的讨论中,我们认为回报只是状态的函数,即R:S->R(实数),现在我们将其扩展为状态和动作的函数,即R:S*A->R(实数)。

此时Bellman等式为 V*(s)=max [ R(s, a)+γΣsiPsa(s`)V*(s`)


有限边界马尔科夫决策过程 Finite Horizon MDP

我们之前介绍的MDP由五元组(S,A,{Psa},γ,R)描述,其中γ是一个小于1的非负数,表达了未来对当今决策的影响,当未来的时间比较远时,γ的指数次已经接近于0,对决策基本没有影响,近似的起到了一个边界的作用,下面我们将介绍有限边界MDP模型,这一模型对边界提出了更明显的要求。

一个有限边界MDP模型同样包括一个五元组,但其为(S,A,{Psa},T,R),即用边界时间Horizon Time参数取代了γ,这一参数暗含整个决策过程不平稳non-stationary,即最优决策可能是时间的函数,一个简单的例子为:我需要3s可以拿到5分,需要10s拿到10分,但我只有5s的时间,此时我的最优决策为去拿那5分,但如果我有20s的时间,我肯定选择去拿10分。

将时间考虑进来后,我们可将最优价值函数改写为

Vt*(s)=E[Rt(st, at)+...+RT(sT,

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值