【十八】线性二次型调节控制

最新推荐文章于 2024-06-22 11:28:12 发布

禛zhen

最新推荐文章于 2024-06-22 11:28:12 发布

阅读量3.5k

点赞数 2

分类专栏：斯坦福大学公开课机器学习课程文章标签：机器学习教程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/knight_wzz/article/details/53046078

版权

本文介绍了线性二次调节控制（LQR）理论，包括状态-动作回报、有限边界马尔科夫决策过程和非线性模型的线性化方法。LQR问题中，状态和动作的回报函数被定义为一个二次型函数，通过Discrete Time Riccati Equation求解最优策略。此外，还讨论了如何在线性化非线性模型以解决控制问题。

摘要由CSDN通过智能技术生成

状态-动作回报 State-action Rewards

在之前的讨论中，我们认为回报只是状态的函数，即R:S->R(实数)，现在我们将其扩展为状态和动作的函数，即R:S*A->R(实数)。

此时Bellman等式为 V*(s)=max [ R(s, a)+γΣsiPsa(s`)V*(s`)

有限边界马尔科夫决策过程 Finite Horizon MDP

我们之前介绍的MDP由五元组（S，A，{Psa}，γ，R）描述，其中γ是一个小于1的非负数，表达了未来对当今决策的影响，当未来的时间比较远时，γ的指数次已经接近于0，对决策基本没有影响，近似的起到了一个边界的作用，下面我们将介绍有限边界MDP模型，这一模型对边界提出了更明显的要求。

一个有限边界MDP模型同样包括一个五元组，但其为（S，A，{Psa}，T，R），即用边界时间Horizon Time参数取代了γ，这一参数暗含整个决策过程不平稳non-stationary，即最优决策可能是时间的函数，一个简单的例子为：我需要3s可以拿到5分，需要10s拿到10分，但我只有5s的时间，此时我的最优决策为去拿那5分，但如果我有20s的时间，我肯定选择去拿10分。

将时间考虑进来后，我们可将最优价值函数改写为

Vt*(s)=E[Rt(st, at)+...+RT(sT,

最低0.47元/天解锁文章

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
【十八】线性二次型调节控制

介绍了《机器学习》第十八讲的教程，包括有限边界马尔科夫决策过程，LQR问题等。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。