Task02:马尔可夫决策过程及表格型方法

在马尔可夫决策过程中,它的环境是 fully observable ,就是全部可以观测的。但是很多时候环境里面有些量是不可观测的,但是这个部分观测的问题也可以转换成一个 MDP 的问题。

如果某一个过程满足马尔可夫性质(Markov Property),就是说未来的转移跟过去是独立的,它只取决于现在。马尔可夫性质是所有马尔可夫过程的基础。

马尔可夫奖励过程(Markov Reward Process, MRP) 是马尔可夫链再加上了一个奖励函数。

Bellman Equation 定义了当前状态跟未来状态之间的这个关系。Bellman Equation 就是当前状态与未来状态的迭代关系,表示当前状态的值函数可以通过下个状态的值函数来计算。Bellman Equation 因其提出者、动态规划创始人 Richard Bellman 而得名 ,也叫作“动态规划方程”。

马尔可夫决策过程(Markov Decision Process)多了一个 decision。

MDP 的 prediction 和 control 是 MDP 里面的核心问题。

Prediction 是说给定一个 MDP 以及一个 policy \piπ ,去计算它的 value function,就对于每个状态,它的价值函数是多少。
Control 是说我们去寻找一个最佳的策略:
它的 input 就是 MDP,
输出是通过去寻找它的最佳策略,然后同时输出它的最佳价值函数(optimal value function)以及它的最佳策略(optimal policy)。
在 MDP 里面,prediction 和 control 都可以通过这个动态规划去解决。
要强调的是,这两者的区别就在于,
预测问题是给定一个 policy,我们要确定它的 value function 是多少。
而控制问题是在没有 policy 的前提下,我们要确定最优的 value function 以及对应的决策方案。
实际上,这两者是递进的关系,在强化学习中,我们通过解决预测问题,进而解决控制问题。

我们会使用 P 函数(probability function)和 R 函数(reward function)来去描述环境。P 函数就是状态转移的概率,P 函数实际上反映的是环境的一个随机性。

强化就是我们可以用下一个状态的价值来更新当前状态的价值,其实就是强化学习里面 bootstrapping 的概念。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值