基于模型与不基于模型的深度增强学习_主编推荐 | 基于模型的强化学习—LQR与iLQR...

最新推荐文章于 2024-01-17 22:54:57 发布

weixin_39572442

最新推荐文章于 2024-01-17 22:54:57 发布

阅读量556

点赞数 1

文章标签：基于模型与不基于模型的深度增强学习

作者：知乎用户@王沃河

编者按

深度强化学习(DRL）的一炮走红，让人们一谈起强化学习首先想到的往往是DRL，而强化学习最早的起源来自 optimal control theory 。LQR和iLQR 作为最优控制/基于模型的强化学习算法，在环境动态系统已知的情况下能更加高效的利用样本，并在化工生产过程，无人驾驶，机械臂控制等实际应用场景取得了很好的效果。

1 背景

强化学习（RL）本质上是一种控制算法。大多语境下RL都是指无模型的RL算法，而依赖于模型的控制方法LQR、MPC等被归为有模型的RL，他们的假设是环境的动态特性已知。基于模型的RL往往被认为有更高的样本利用效率。我们将介绍常见的最优控制/轨迹优化算法LQR(线性二次型调节器)及其非线性版本iLQR(迭代LQR)算法。有意思的是，LQR问题在离散时间情况下其实是通过动态规划来解的。本文的算法介绍包含三部分内容 i）LQR ii）iLQR iii）iLQR的改进。

2 任务定义

3 解决方案

LQR

注意，其中C矩阵是根据实际控制需求人为设定的，F是已知的。

明确一下，我们的目标，找到使得（3）最小的轨迹。由于环境和cost是已知的，我们不需要进行无模型RL中的探索环节，通过规划（planning）即可得到最优策略和动作。解决LQR问题的方法即是借鉴动态规划算法，求解思路如下：

1）看最后一步，得到子问题。

2）求子问题最优解。

3）根据状态转移(模型)，得到包含已求解过的子问题的新子问题

4）跳转到

最低0.47元/天解锁文章

weixin_39572442

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
基于模型与不基于模型的深度增强学习_主编推荐 | 基于模型的强化学习—LQR与iLQR...

作者：知乎用户@王沃河编者按深度强化学习(DRL）的一炮走红，让人们一谈起强化学习首先想到的往往是DRL，而强化学习最早的起源来自 optimal control theory 。LQR和iLQR 作为最优控制/基于模型的强化学习算法，在环境动态系统已知的情况下能更加高效的利用样本，并在化工生产过程，无人驾驶，机械臂控制等实际应用场景取得了很好的效果。1 背景强化学习（RL）本质上是一种控制算法。...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。