离散LQR:原理,求解与拓展

该文档用以总结离散LQR的基本原理,反馈控制率的求解和一些拓展(时变系统,跟踪命题等)。主要参考的是Stanford的课程EE363: Linear Dynamical Systems的部分课件。

目录


1 有限时域离散LQR的基本原理

这里我们首先考虑一个离散的线性系统:

xt+1=Axt+But,x0=xinit

LQR的目标就在于,找到一组控制序列 u0,u1,... 能够使得:

  • x0,x1,... 尽量小,即将状态调节到零点;
  • u0,u1,... 尽量小,即控制器付出较小的努力;

然而,这两个目标往往是冲突的,因为较大的控制作用 u 能更快地将状态调节到零点。因此LQR就是根据需要设计出一组控制率来实现上面两个目标的权衡。

为此,我们定义如下的二次代价函数(quadratic cost function):

J(U)=τ=0N1(xTτQxτ+uTτRuτ)+xTNQfxN
这里 U=(u0,u1,...,uN1) ,且

Q=QT0,Qf=QTf0,R=RT>0
分别被称为 state cost, final state cost, input cost 矩阵。

代价函数中的三项分别用来衡量状态偏差,输入偏差以及最终状态偏差。 Q R 用来确定状态和输入的相对权重。
因此,LQR的问题就是,找到一组序列: ulqr0,...,ulqrN1 来最小化代价函数 J(U)

通常 Q R 的形式为:

R=ρI,Q=Qf=CTC
这里 CRp×n,ρR,ρ>0

于是,代价函数就可以变形为:

J(U)=τ=0Nyτ2+ρτ=0N1uτ2
这里 y=Cx ρ
  • 17
    点赞
  • 95
    收藏
    觉得还不错? 一键收藏
  • 9
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值