在马尔可夫决策过程中,它的环境是 fully observable ,就是全部可以观测的。但是很多时候环境里面有些量是不可观测的,但是这个部分观测的问题也可以转换成一个 MDP 的问题。
如果某一个过程满足马尔可夫性质(Markov Property),就是说未来的转移跟过去是独立的,它只取决于现在。马尔可夫性质是所有马尔可夫过程的基础。
马尔可夫奖励过程(Markov Reward Process, MRP) 是马尔可夫链再加上了一个奖励函数。
Bellman Equation 定义了当前状态跟未来状态之间的这个关系。Bellman Equation 就是当前状态与未来状态的迭代关系,表示当前状态的值函数可以通过下个状态的值函数来计算。Bellman Equation 因其提出者、动态规划创始人 Richard Bellman 而得名 ,也叫作“动态规划方程”。
马尔可夫决策过程(Markov Decision Process)多了一个 decision。
MDP 的 prediction 和 control 是 MDP 里面的核心问题。
Prediction 是说给定一个 MDP 以及一个 policy \piπ ,去计算它的 value function,就对于每个状态,它的价值函数是多少。
Control 是说我们去寻找一个最佳的策略:
它的 input 就是 MDP,
输出是通过去寻找它的最佳策略,然后同时输出它的最佳价值函数(optimal value function)以及它的最佳策略(optimal policy)。
在 MDP 里面,prediction 和 control 都可以通过这个动态规划去解决。
要强调的是,这两者的区别就在于,
预测问题是给定一个 policy,我们要确定它的 value function 是多少。
而控制问题是在没有 policy 的前提下,我们要确定最优的 value function 以及对应的决策方案。
实际上,这两者是递进的关系,在强化学习中,我们通过解决预测问题,进而解决控制问题。
我们会使用 P 函数(probability function)和 R 函数(reward function)来去描述环境。P 函数就是状态转移的概率,P 函数实际上反映的是环境的一个随机性。
强化就是我们可以用下一个状态的价值来更新当前状态的价值,其实就是强化学习里面 bootstrapping 的概念。