一、马尔科夫过程
1.马尔可夫性
如果P[St+1|St] = P[St+1|S1,...,St],即系统下一状态St+1只与当前状态St有关,则称为Markov性。
2.状态转移概率
P是状态转移概率矩阵,每一行的概率和为1。
3.马尔科夫过程
Markov Process由<S,P>组成,S是有限状态集,P是状态转移概率矩阵
二、马尔科夫奖励过程
1.表示方法
MRP由<S,P,R,γ>组成,加了policy π后MRP格式改变成。
回报函数,是当前状态所获得的回报的数学期望(类似于取平均值)。前面写过RL中t+1是在agent做出action后发生的,仍旧是当前状态下,即意思是不管在这个状态下做什么action,Rs=Rt+1都一定的。
γ是一个未来对现在影响的数学上的表达,γ=0,完全短视不考虑未来,γ=1,undiscount未来的所有状态都考虑。γ的加入主要是因为一是会削弱MP中环的影响,二是模型对未来的估计不一定准确。
2.累计回报
累计回报Gt,,这里是求和的是在t时刻随机采样产生的一系列状态点。
3.状态值函数
value function可以换一种写法,类似于采样所有s状态下的Gt取平均值。
4.状态值函数的贝尔曼方程
即可以将value function看做immediate回报Rt+1和下一个状态的价值discount后的和
举例如下图的MP过程图中,每个节点就表示当前状态s,里面数字是v(s)。比如v(s)=4.1的节点,求法是0.6*(-2+0.9*10)+0.4*(-2+0.9*1.9)=4.084,并且4.084≈4.1说明此时已经达到self-consistant状态。
三、马尔科夫决策过程
1.表示方法
MDP的格式<S,A,P,R,γ>,从此P和R都加入了a的影响
2.策略policy
π(a|s)=P[At = a | St = s])
3.状态-行为值函数
4.状态-行为值函数的贝尔曼方程
比如在下面这个例子中,7.4这个节点的v(s)更新方法如下 —— 现在已经self-consistant,每个action默认概率相同。
四、最优值函数与最优策略
最优值函数与最优策略为什么等价?
要解释这个问题,首先需要澄清最优价值函数与最优策略的具体含义。
最优价值函数是说,对于某个状态S,选择一个策略π使得Vπ(S)达到最大,即
Vπ(S)≥Vπ'(S);
而最优策略是说,某个策略π,对于任意状态s,都有Vπ(s)≥Vπ‘(s);
反证法:这里对于最优策略π,即存在在状态S处Vπ(S)≥Vπ’(S);假设最优策略与最优价值函数不等价。那么有在状态S处,最优价值函数不等于Vπ(S),应该为Vπ‘(S)。这与最优策略π的含义:Vπ(S)≥Vπ’(S)矛盾。因此二者是等价的。
1.最优值函数
从最开始引入值函数的概念入手,值函数是用来评估S1的价值,假设我们每一点都选择最具有价值的action来走的话,那最后的就是最优的policy
最优状态值函数υ* (s) 为在所有策略中值最大的值函数
最优状态-⾏为值函数q* (s,a)为在所有策略中最⼤的状态-⾏为值函数
最优状态值函数和最优状态-动值函数的⻉尔曼最优⽅程:
2.最优策略
若已知最优状态-动作值函数,最优策略可通过直接最大化q* (s,a)来决定,即贪婪策略
贪婪策略
贪婪策略是⼀个确定性策略,即只有在使得动作值【动作值函数或者称他为行为值函数】函数q* (s,a)最⼤的动作处取概率1,选其他动作的概率为0
或ε-greedy策略
后面的参数和这样的意义应该是一样的,因为这里都是动作值函数
ε-greedy策略是强化学习最基本最常⽤随机策略。其含义是选取使得动作值函数最⼤的动作的概率为
其余为:
ε-greedy平衡了利⽤(exploitation)和探索(exploration),其中选取动作值函数最⼤的部分为利⽤,其他⾮最优动作仍有概率为探索部分。
......
五、总结
1.首先利用贝尔曼期望方程,对某一特定策略求其值函数和行为值函数,即对某一策略的估计,
如Q表