深度强化学习:(一)马尔科夫决策过程

一、马尔科夫过程

1.马尔可夫性

如果P[St+1|St] = P[St+1|S1,...,St],即系统下一状态St+1只与当前状态St有关,则称为Markov性。

2.状态转移概率

P是状态转移概率矩阵,每一行的概率和为1。

3.马尔科夫过程

Markov Process由<S,P>组成,S是有限状态集,P是状态转移概率矩阵

二、马尔科夫奖励过程

1.表示方法

MRP由<S,P,R,γ>组成,加了policy π后MRP格式改变成

回报函数,是当前状态所获得的回报的数学期望(类似于取平均值)。前面写过RL中t+1是在agent做出action后发生的,仍旧是当前状态下,即意思是不管在这个状态下做什么action,Rs=Rt+1都一定的。

γ是一个未来对现在影响的数学上的表达,γ=0,完全短视不考虑未来,γ=1,undiscount未来的所有状态都考虑。γ的加入主要是因为一是会削弱MP中环的影响,二是模型对未来的估计不一定准确。

2.累计回报

累计回报Gt,,这里是求和的是在t时刻随机采样产生的一系列状态点。

3.状态值函数

value function可以换一种写法,类似于采样所有s状态下的Gt取平均值。

4.状态值函数的贝尔曼方程

即可以将value function看做immediate回报Rt+1和下一个状态的价值discount后的和

举例如下图的MP过程图中,每个节点就表示当前状态s,里面数字是v(s)。比如v(s)=4.1的节点,求法是0.6*(-2+0.9*10)+0.4*(-2+0.9*1.9)=4.084,并且4.084≈4.1说明此时已经达到self-consistant状态。

三、马尔科夫决策过程

1.表示方法

MDP的格式<S,A,P,R,γ>,从此P和R都加入了a的影响

           

2.策略policy

π(a|s)=P[At = a | St = s])

3.状态-行为值函数

4.状态-行为值函数的贝尔曼方程

                   

比如在下面这个例子中,7.4这个节点的v(s)更新方法如下 —— 现在已经self-consistant,每个action默认概率相同。

四、最优值函数与最优策略

最优值函数与最优策略为什么等价?

要解释这个问题,首先需要澄清最优价值函数与最优策略的具体含义。

最优价值函数是说,对于某个状态S,选择一个策略π使得Vπ(S)达到最大,即

Vπ(S)≥Vπ'(S);

而最优策略是说,某个策略π,对于任意状态s,都有Vπ(s)≥Vπ‘(s);

反证法:这里对于最优策略π,即存在在状态S处Vπ(S)≥Vπ’(S);假设最优策略与最优价值函数不等价。那么有在状态S处,最优价值函数不等于Vπ(S),应该为Vπ‘(S)。这与最优策略π的含义:Vπ(S)≥Vπ’(S)矛盾。因此二者是等价的。

1.最优值函数

从最开始引入值函数的概念入手,值函数是用来评估S1的价值,假设我们每一点都选择最具有价值的action来走的话,那最后的就是最优的policy

最优状态值函数υ* (s) 为在所有策略中值最大的值函数

最优状态-⾏为值函数q* (s,a)为在所有策略中最⼤的状态-⾏为值函数

最优状态值函数和最优状态-动值函数的⻉尔曼最优⽅程:

2.最优策略

若已知最优状态-动作值函数,最优策略可通过直接最大化q* (s,a)来决定,即贪婪策略

贪婪策略

贪婪策略是⼀个确定性策略,即只有在使得动作值【动作值函数或者称他为行为值函数】函数q* (s,a)最⼤的动作处取概率1,选其他动作的概率为0

或ε-greedy策略

后面的参数和这样的意义应该是一样的,因为这里都是动作值函数

ε-greedy策略是强化学习最基本最常⽤随机策略。其含义是选取使得动作值函数最⼤的动作的概率为

其余为:

ε-greedy平衡了利⽤(exploitation)和探索(exploration),其中选取动作值函数最⼤的部分为利⽤,其他⾮最优动作仍有概率为探索部分。

......

五、总结

1.首先利用贝尔曼期望方程,对某一特定策略求其值函数和行为值函数,即对某一策略的估计,

Q表

2.利用贝尔曼最有方程,寻找最优策略,是非线性函数,求解方法包括值迭代、策略迭代、Q-learning、Sarsa等

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值