Task02：马尔可夫决策过程及表格型方法

最新推荐文章于 2020-11-18 16:43:03 发布

Thoth_A

最新推荐文章于 2020-11-18 16:43:03 发布

阅读量195

点赞数

文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Thoth_A/article/details/109250270

版权

在马尔可夫决策过程中，它的环境是 fully observable ，就是全部可以观测的。但是很多时候环境里面有些量是不可观测的，但是这个部分观测的问题也可以转换成一个 MDP 的问题。

如果某一个过程满足马尔可夫性质(Markov Property)，就是说未来的转移跟过去是独立的，它只取决于现在。马尔可夫性质是所有马尔可夫过程的基础。

马尔可夫奖励过程(Markov Reward Process, MRP) 是马尔可夫链再加上了一个奖励函数。

Bellman Equation 定义了当前状态跟未来状态之间的这个关系。Bellman Equation 就是当前状态与未来状态的迭代关系，表示当前状态的值函数可以通过下个状态的值函数来计算。Bellman Equation 因其提出者、动态规划创始人 Richard Bellman 而得名，也叫作“动态规划方程”。

马尔可夫决策过程(Markov Decision Process)多了一个 decision。

MDP 的 prediction 和 control 是 MDP 里面的核心问题。

Prediction 是说给定一个 MDP 以及一个 policy \piπ ，去计算它的 value function，就对于每个状态，它的价值函数是多少。
Control 是说我们去寻找一个最佳的策略：
它的 input 就是 MDP，
输出是通过去寻找它的最佳策略，然后同时输出它的最佳价值函数(optimal value function)以及它的最佳策略(optimal policy)。
在 MDP 里面，prediction 和 control 都可以通过这个动态规划去解决。
要强调的是，这两者的区别就在于，
预测问题是给定一个 policy，我们要确定它的 value function 是多少。
而控制问题是在没有 policy 的前提下，我们要确定最优的 value function 以及对应的决策方案。
实际上，这两者是递进的关系，在强化学习中，我们通过解决预测问题，进而解决控制问题。

我们会使用 P 函数(probability function)和 R 函数(reward function)来去描述环境。P 函数就是状态转移的概率，P 函数实际上反映的是环境的一个随机性。

强化就是我们可以用下一个状态的价值来更新当前状态的价值，其实就是强化学习里面 bootstrapping 的概念。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Task02：马尔可夫决策过程及表格型方法

在马尔可夫决策过程中，它的环境是 fully observable ，就是全部可以观测的。但是很多时候环境里面有些量是不可观测的，但是这个部分观测的问题也可以转换成一个 MDP 的问题。如果某一个过程满足马尔可夫性质(Markov Property)，就是说未来的转移跟过去是独立的，它只取决于现在。马尔可夫性质是所有马尔可夫过程的基础。马尔可夫奖励过程(Markov Reward Process, MRP) 是马尔可夫链再加上了一个奖励函数。Bellman Equation 定义了当前状态跟未来状态之
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。