基于模型与不基于模型的深度增强学习_主编推荐 | 基于模型的强化学习—LQR与iLQR...

eaacc965ef1d88fc567bf94223f1445f.png

作者:知乎用户@王沃河

编者按

深度强化学习(DRL)的一炮走红,让人们一谈起强化学习首先想到的往往是DRL,而强化学习最早的起源来自 optimal control theory 。LQR和iLQR 作为最优控制/基于模型的强化学习算法,在环境动态系统已知的情况下能更加高效的利用样本,并在化工生产过程,无人驾驶,机械臂控制等实际应用场景取得了很好的效果。

1 背景

强化学习(RL)本质上是一种控制算法。大多语境下RL都是指无模型的RL算法,而依赖于模型的控制方法LQR、MPC等被归为有模型的RL,他们的假设是环境的动态特性已知。基于模型的RL往往被认为有更高的样本利用效率。我们将介绍常见的最优控制/轨迹优化算法LQR(线性二次型调节器)及其非线性版本iLQR(迭代LQR)算法。有意思的是,LQR问题在离散时间情况下其实是通过动态规划来解的。本文的算法介绍包含三部分内容 i)LQR ii)iLQR iii)iLQR的改进。

2 任务定义

df3a7eb2381e8e6a83e7687eaa978c02.png

d99c1dc2bde5df14140568b376dae8c3.png

92a936b60a2830084ad448cc30440c31.png

3 解决方案

LQR

1a40c9c9030799b61cf6f7154cb7329d.png

注意,其中C矩阵是根据实际控制需求人为设定的,F是已知的。

明确一下,我们的目标,找到使得(3)最小的轨迹。由于环境和cost是已知的,我们不需要进行无模型RL中的探索环节,通过规划(planning)即可得到最优策略和动作。解决LQR问题的方法即是借鉴动态规划算法,求解思路如下:

1)看最后一步,得到子问题。

2)求子问题最优解。

3)根据状态转移(模型),得到包含已求解过的子问题的新子问题

4)跳转到

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值