Iterative Linear Quadratic Gaussian（iLQG）

最新推荐文章于 2022-06-19 12:15:04 发布

master_hao

最新推荐文章于 2022-06-19 12:15:04 发布

阅读量1.4k

点赞数 1

文章标签：强化学习 iLQG

本文链接：https://blog.csdn.net/qq_24464155/article/details/101352810

版权

本文详细介绍了Iterative Linear Quadratic Gaussian（iLQG）算法，它将非线性最优控制问题转化为LQG问题进行迭代求解。通过线性化动力学和二次化损失函数，iLQG逐步优化控制序列以达到收敛。与强化学习不同，iLQG在已知系统动力学条件下工作，提供了一种理论基础和分析工具。文章深入探讨了公式理解、算法步骤及迭代流程。

摘要由CSDN通过智能技术生成

论文简述

原论文：http://maeresearch.ucsd.edu/groups/skelton/publications/weiwei_ilqg_CDC43.pdf
本文工作把一个非线性最优控制问题，在每次迭代中都在局部归化为控制理论里面研究很成熟的Linear Quadratic Gaussian（LQG）问题，然后迭代地去求解更好的控制序列，直到收敛。

与强化学习的区别在于强化学习中不直接知道系统的dynamics，而最优控制的问题可以知道系统的dynamics。控制理论是强化理论的重要基础，相比于更为玄学的强化学习，控制理论的理论分析更细致，能够更好的帮助我们理解强化学习。

公式理解

任意找一个控制序列 $\{\overline{u}(k)\}$ ，然后按照这个控制做一次推导，得到轨迹 $\{\overline{x}(k)\}$ 。在这个轨迹附近，将系统的动力学特性线性化、将损失函数二次化，并考虑如何在 $\{\overline{u}(k)\}$ 和 $\{\overline{x}(k)\}$ 附近找到扰动 $\delta u=u-\overline{u}$ 和 $\delta x=x-\overline{x}$ 使得新的控制比之前的更好。迭代地做更新直到收敛即得到最优控制序列。

算法的每一次迭代都在轨迹 $\{\overline{x}(k), \overline{u}(k)\}$ 附近先找到控制序列 $u=\overline{u}+\delta u$ ，然后根据动力学规律找到新的轨迹 $x=\overline{x}+\delta x$ ，反复迭代直到收敛

具体步骤：
首先可以将系统的动力学特性线性化并且将损失函数二次化，有
$\begin{aligned} \delta \mathbf{x}_{k+1}=& A_{k} \delta \mathbf{x}_{k}+B_{k} \delta \mathbf{u}_{k}+\mathcal{C}_{k}\left(\delta \mathbf{u}_{k}\right) \boldsymbol{\xi}_{k} \\ \mathcal{C}_{k}\left(\delta \mathbf{u}_{k}\right) \triangleq &\left[\mathbf{c}_{1, k}+C_{1, k} \delta \mathbf{u}_{k} \cdots \mathbf{c}_{p, k}+C_{p, k} \delta \mathbf{u}_{k}\right] \\ \operatorname{cost}_{k}=& q_{k}+\delta \mathbf{x}_{k}^{\top} \mathbf{q}_{k}+\frac{1}{2} \delta \mathbf{x}_{k}^{\top} Q_{k} \delta \mathbf{x}_{k} \\ &+\delta \mathbf{u}_{k}^{\top} \mathbf{r}_{k}+\frac{1}{2} \delta \mathbf{u}_{k}^{\top} R_{k} \delta \mathbf{u}_{k} \end{aligned}$

最低0.47元/天解锁文章

master_hao

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Iterative Linear Quadratic Gaussian（iLQG）

论文简述原论文：http://maeresearch.ucsd.edu/groups/skelton/publications/weiwei_ilqg_CDC43.pdf本文工作把一个非线性最优控制问题，在每次迭代中都在局部归化为控制理论里面研究很成熟的Linear Quadratic Gaussian（LQG）问题，然后迭代地去求解更好的控制序列，直到收敛。与强化学习的区别在于强化学习中不...
复制链接

扫一扫