Lecture 2: Markov Decision Processes
https://www.davidsilver.uk/wp-content/uploads/2020/03/MDP.pdf
Markov Processes
几乎所有的强化学习问题都可以表述为马尔可夫决策过程为题,而马尔可夫过程中的状态均满足马尔可夫性。根据定义式,马尔可夫状态包含了其history中全部的状态信息,即该状态是下一状态的充分统计量,在强化学习中信息量是全部的rewards。
马尔可夫状态的转换通过状态转换矩阵实现。
马尔可夫过程是一个无记忆性的随机过程,表示为一个二元组,其中把偶偶状态集S和过程集P。
Markov Reward Processes
马尔可夫奖励过程(MRP)与马尔可夫过程(MP)相比多了一个奖励函数和一个折扣银子。折扣银子表示未来奖励对于现在的影响大小(0到1之间)。
回报是从时间t开始的一直到终止整个过程中全部的折扣奖励,这里的奖励是从t+1开始计算,可以看到距离当前时间最近的奖励是最被看重的。
myopic 近视的;短视的;目光短浅的
far-sighted 有远见的;深谋远虑的
MRP的价值方程给出了状态s的一个长期价值。
贝尔曼方程很好推导出来,分为当前的reward和折扣因子下的下一状态值,两部分加和的期望即为状态s的值函数。
贝尔曼方程的矩阵表示形式,也可以被直接解出来。
Markov Decison Processes
马尔可夫决策过程(MDP),相比MRP多了action。
MDP是执行一个动作action得到的,儿MRP进入状态就可得到。
MDP中执行一个动作得到的结果不一定相同,所以也是以概率P的形式存在,这点与MRP中状态转换以P的形式存在同理。
Policy是根据跟定状态下action的分布
MDP的价值方程分为状态价值和行为价值两种,这里的函数值是与策略相关的,方程根据某一状态和行为下得到的回报(折扣奖励的总和)的期望得到。
MDP的贝尔曼方程同样也分为状态价值方程和行为价值方程。这是因为状态和行为的交替产生的,每一种行为都可以产生不同概率的状态,在同一状态下也可能做出不同的行为。
从行为(黑点)推状态(圆圈),得到状态的价值方程。
从圆圈推行为,得到行为的状态价值方程。
在状态-行为-状态的结构中,得到的状态方程如上。
在行为-状态-行为的方程中,得到的方程如上。
最优价值方程
最优策略,找到行为a可以时行为价值方程的函数值最大,将这个行为设为1,其他设为0。
解决最优贝尔曼方程的途径
Extensions to MDPs
(no exam)