AI学习笔记——强化学习之动态规划(Dynamic Programming)解决MDP(1)

最新推荐文章于 2020-06-23 20:44:40 发布

_miccretti

最新推荐文章于 2020-06-23 20:44:40 发布

阅读量211

点赞数

文章标签：数据结构与算法人工智能

原文链接：https://yq.aliyun.com/articles/655944

版权

我们介绍过MDP(Markov Decision Processes马可夫决策过程)以及什么是最优MDP，甚至从强化学习的角度介绍了DQN，Q-learning, Sarsa 等求解最优MDP方法，但是要深入理解强化学习，必须了解背后支持的理论基础。动态规划(Dynamic programming)就是这些算法为什么能够求解最优MDP的理论基础。

动态规划的本质是将复杂大问题分解成，相互重叠的简单子问题，求到子问题的的最优解，然后将这些最优解组合起来就是大问题的最优解。

举个简单的例子，女朋友想在衣帽间中找到最搭的穿戴(衣服，帽子，鞋子，首饰。。。)。这是一个复杂的问题，但是我们可以把这个问题分解成互相重叠的小问题，比如，找到最佳搭配的鞋子和裤子。最佳搭配的裤子和衣服，最佳搭配的衣服和首饰等等。。。将这些搭配打完分之后，你自然就会找到最佳搭配的(得分最高的)衣服，裤子，帽子，鞋子和首饰了。

能用动态规划解决的问题必须满足两个条件，第一是可以拆解成子问题，第二这些子问题必须能相互重叠，MDP就满足这两个条件。

在用动态规划解决MDP问题的时候需要用到之前提到的Bellman公式，已经用Bellman公式1.预测v函数(状态值函数)，2.通过价值迭代(Value iteration)求最优MDP 3. 通过策略迭代(Policy Iternation)来求得最优MDP。这些内容将放在下一篇文章中介绍。

相关文章
AI学习笔记——求解最优MDP
AI学习笔记——MDP(Markov Decision Processes马可夫决策过程)简介
 AI学习笔记——Q Learning
AI学习笔记——Sarsa算法
 AI学习笔记——卷积神经网络（CNN）

文章首发steemit.com 为了方便墙内阅读，搬运至此，欢迎留言或者访问我的Steemit主页

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
AI学习笔记——强化学习之动态规划(Dynamic Programming)解决MDP(1)

我们介绍过MDP(Markov Decision Processes马可夫决策过程)以及什么是最优MDP，甚至从强化学习的角度介绍了DQN，Q-learning, Sarsa 等求解最优MDP方法，但是要深入理解强化学习，必须了解背后支持的理论基础。动态规划(Dynamic programming)就是这些算...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。