MDP是强化学习的数学表达,是一种全观测模式,几乎所有的强化学习问题都可以转换成MDP,若该过程所有状态都为Markov状态,该过程为MP。Markov状态只与上一个状态有关,即
得到以下结论:(history and future)
1) Markov状态吸收history所有的信息,以至于得到Markov状态时,可以丢弃history
2) 当前Markov状态能够完全刻画未来reward信息
转移概率:当前状态转移到下一个状态的概率,即:
状态转移矩阵:是指allstate to all next state的概率:
马尔科夫过程-MP
马尔科夫过程是一个无记忆的随机过程。随机是指当前状态到下一个状态是随机的。过程中的所有状态都满足markov性,表示为一个二元组,包括状态集合和状态转移概率矩阵。总的来说,马尔科夫过程就是由当前状态转移到下一个状态,并且每个状态具有马尔科夫性。
马尔科夫奖励过程-MRP
基于value的马尔科夫过程,通过reward来引导下一步转移的方向。
R是当前状态下的即时奖励,而强化学习是要求总奖励。Gamma是一个折扣因子,表示未来奖励对现在的影响程度。
Return是指reward的总和,包括当前和未来的总和。
Discountcoefficient-折扣系数原因:
1、数学方便,让计算有限,避免无限计算。2、对未来的不确定性,不完全计算。3、金融利率
Valuefunction-价值函数:是指在某个状态下的价值函数,在某个状态下获得的reward的期望。
Bellman方程
价值函数通过推导可以看出,价值函数可以由当前即时reward和下一个状态的价值总和两部分组成。E(S(t+1))=S(t+1)=E(G(t+1)),所以可替换。由期望的定义得:Rs是常量,期望等于本身,等式含义是指:当前状态的价值等于当前状态的即时reward和discount下的所有下一个状态价值的总和。
MDP-马尔科夫决策过程
在MRP过程中添加了A-action集合,这时的状态转移不仅依赖状态s,还依赖动作a;这时的reward也是在当前状态和动作的作用下获得的。Action也是通过指定的策略来选取的。
Policy-策略
Policy决定了agent的行为,policy依赖当前的state,而不依赖history。
MDP的值函数:包括state value function and actionvalue function
根据Bellman方程,v和q可分为两部分:
最优价值函数
State状态价值函数也是整个策略的状态价值函数。
Action-state动作状态价值函数也是整个策略的动作状态价值函数。
最优价值函数是MDP的最好表现,当我们知道价值函数时,MDP被解决。
最优策略:对任意的状态s来说,都有vpi(s)>=v’pi’(s),此时pi>=pi’
对于MDP,一定存在一个policy大于等于所有策略;此时所有最优策略达到最优价值函数,所有最优策略达到最优动作价值函数。最优策略选取如下:
注:MDP总有一个确定的最优策略,当知道q*时,就可以解决最优策略。
最优策略的贝尔曼方程与上类似。
V(s)和q(s,a)之间的区别:
V(s)是在该状态下的reward值,q(s,a)是在该state和action下的reward值
V(s)和q(s,a)之间联系是,在状态与状态之间会有多种action选择,所以v(s)可以分为多个q(s,a)情况。