Iterative Linear Quadratic Gaussian(iLQG)

本文详细介绍了Iterative Linear Quadratic Gaussian(iLQG)算法,它将非线性最优控制问题转化为LQG问题进行迭代求解。通过线性化动力学和二次化损失函数,iLQG逐步优化控制序列以达到收敛。与强化学习不同,iLQG在已知系统动力学条件下工作,提供了一种理论基础和分析工具。文章深入探讨了公式理解、算法步骤及迭代流程。
摘要由CSDN通过智能技术生成
论文简述

原论文:http://maeresearch.ucsd.edu/groups/skelton/publications/weiwei_ilqg_CDC43.pdf
本文工作把一个非线性最优控制问题,在每次迭代中都在局部归化为控制理论里面研究很成熟的Linear Quadratic Gaussian(LQG)问题,然后迭代地去求解更好的控制序列,直到收敛。

与强化学习的区别在于强化学习中不直接知道系统的dynamics,而最优控制的问题可以知道系统的dynamics。控制理论是强化理论的重要基础,相比于更为玄学的强化学习,控制理论的理论分析更细致,能够更好的帮助我们理解强化学习。

公式理解

任意找一个控制序列 { u ‾ ( k ) } \{\overline{u}(k)\} { u(k)},然后按照这个控制做一次推导,得到轨迹 { x ‾ ( k ) } \{\overline{x}(k)\} { x(k)} 。在这个轨迹附近,将系统的动力学特性线性化、将损失函数二次化,并考虑如何在 { u ‾ ( k ) } \{\overline{u}(k)\} { u(k)} { x ‾ ( k ) } \{\overline{x}(k)\} { x(k)}附近找到扰动 δ u = u − u ‾ \delta u=u-\overline{u} δu=uu δ x = x − x ‾ \delta x=x-\overline{x} δx=xx使得新的控制比之前的更好。迭代地做更新直到收敛即得到最优控制序列。

算法的每一次迭代都在轨迹 { x ‾ ( k ) , u ‾ ( k ) } \{\overline{x}(k), \overline{u}(k)\} { x(k),u(k)}附近先找到控制序列 u = u ‾ + δ u u=\overline{u}+\delta u u=u+δu ,然后根据动力学规律找到新的轨迹 x = x ‾ + δ x x=\overline{x}+\delta x x=x+δx,反复迭代直到收敛

具体步骤:
首先可以将系统的动力学特性线性化并且将损失函数二次化,有
δ x k + 1 = A k δ x k + B k δ u k + C k ( δ u k ) ξ k C k ( δ u k ) ≜ [ c 1 , k + C 1 , k δ u k ⋯ c p , k + C p , k δ u k ] cost ⁡ k = q k + δ x k ⊤ q k + 1 2 δ x k ⊤ Q k δ x k + δ u k ⊤ r k + 1 2 δ u k ⊤ R k δ u k \begin{aligned} \delta \mathbf{x}_{k+1}=& A_{k} \delta \mathbf{x}_{k}+B_{k} \delta \mathbf{u}_{k}+\mathcal{C}_{k}\left(\delta \mathbf{u}_{k}\right) \boldsymbol{\xi}_{k} \\ \mathcal{C}_{k}\left(\delta \mathbf{u}_{k}\right) \triangleq &\left[\mathbf{c}_{1, k}+C_{1, k} \delta \mathbf{u}_{k} \cdots \mathbf{c}_{p, k}+C_{p, k} \delta \mathbf{u}_{k}\right] \\ \operatorname{cost}_{k}=& q_{k}+\delta \mathbf{x}_{k}^{\top} \mathbf{q}_{k}+\frac{1}{2} \delta \mathbf{x}_{k}^{\top} Q_{k} \delta \mathbf{x}_{k} \\ &+\delta \mathbf{u}_{k}^{\top} \mathbf{r}_{k}+\frac{1}{2} \delta \mathbf{u}_{k}^{\top} R_{k} \delta \mathbf{u}_{k} \end{aligned} δxk+1=Ck(δuk)costk=Akδxk+Bkδuk+Ck(δuk)ξk

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值