![eaacc965ef1d88fc567bf94223f1445f.png](https://i-blog.csdnimg.cn/blog_migrate/e7a9ca362d473d30e906dc47b5d89cf0.jpeg)
作者:知乎用户@王沃河
编者按
深度强化学习(DRL)的一炮走红,让人们一谈起强化学习首先想到的往往是DRL,而强化学习最早的起源来自 optimal control theory 。LQR和iLQR 作为最优控制/基于模型的强化学习算法,在环境动态系统已知的情况下能更加高效的利用样本,并在化工生产过程,无人驾驶,机械臂控制等实际应用场景取得了很好的效果。
1 背景
强化学习(RL)本质上是一种控制算法。大多语境下RL都是指无模型的RL算法,而依赖于模型的控制方法LQR、MPC等被归为有模型的RL,他们的假设是环境的动态特性已知。基于模型的RL往往被认为有更高的样本利用效率。我们将介绍常见的最优控制/轨迹优化算法LQR(线性二次型调节器)及其非线性版本iLQR(迭代LQR)算法。有意思的是,LQR问题在离散时间情况下其实是通过动态规划来解的。本文的算法介绍包含三部分内容 i)LQR ii)iLQR iii)iLQR的改进。
2 任务定义
![df3a7eb2381e8e6a83e7687eaa978c02.png](https://i-blog.csdnimg.cn/blog_migrate/9bbddbb2f00f2b1e0d7f84068d575c28.jpeg)
![d99c1dc2bde5df14140568b376dae8c3.png](https://i-blog.csdnimg.cn/blog_migrate/c967c388f19aab25a8f51134827999de.jpeg)
![92a936b60a2830084ad448cc30440c31.png](https://i-blog.csdnimg.cn/blog_migrate/49ccb4712bfdc3aeadc1800afb67a8ff.png)
3 解决方案
LQR
![1a40c9c9030799b61cf6f7154cb7329d.png](https://i-blog.csdnimg.cn/blog_migrate/3fa1101c82916ab91a2498c44dae7741.png)
注意,其中C矩阵是根据实际控制需求人为设定的,F是已知的。
明确一下,我们的目标,找到使得(3)最小的轨迹。由于环境和cost是已知的,我们不需要进行无模型RL中的探索环节,通过规划(planning)即可得到最优策略和动作。解决LQR问题的方法即是借鉴动态规划算法,求解思路如下:
1)看最后一步,得到子问题。
2)求子问题最优解。
3)根据状态转移(模型),得到包含已求解过的子问题的新子问题
4)跳转到