强化学习总结(2)--马尔科夫决策

RL问题的基础就是马尔科夫决策过程(MDP),因此,这一块内容虽然基础,但确是不得不总结的内容。网上虽然有很多博客、专栏介绍,但总感觉似是而非,有些还有些许错误。这里打算按照教材中的体系再度总结一下吧。这一块概念性的东西比较多,比如马尔科夫性质(无后效性),比如值函数、最优值函数、最优动作价值函数等等。下面会一一进行介绍。

1.几种马尔科夫模型的关系,引用一篇博客的图就是:

2.马尔科夫决策过程

   一个马尔科夫决策过程由一个五元组构成M=(S,A,Ps,a,R,γ ),具体如下:

   S:表示一组状态集合。

   A:表示一组动作。

   Ps,a表示状态转移概率。Ps,a表示当前状态下,经过动作a后,可能转移到其他各种状态的概率分布情况。比如,在状态s下执行动作a,转移到s'的概率可以表示为p(s'|s,a).

   R:奖励函数。

   γ是折扣率,又叫折扣因子。

   回报(return):时刻t在某一状态下的表示:

\[\begin{array}{c}
{G_t} = {R_{t + 1}} + \gamma {R_{t + 2}} + {\gamma ^2}{R_{t + 3}} + \cdots \\
{\rm{ = }}{R_{t + 1}} + \gamma {G_{t + 1}}
\end{array}\](2.1)

   其中γ是一个参数,属于[0,1],就是所谓的折扣率。

   MDP的决策过程非常好理解,学过随机过程的应该都知道,就是:某个agent的初始状态为s0,然后根据策略选择一个动作a0执行,然后状态会按照Ps,a的转移概率转移到下一个状态s1,然后继续执行下一个动作a1,转移到s2,接下来继续执行....这个过程也比较好理解,不再赘述。

2.值函数

    这个是MDP的核心,也是RL的核心概念。举个例子,下棋的时候,如果在第n步输了棋,那么只有状态sn和an,然后获得的一个立即奖励,但这个奖励怎么说明策略到底是好还是坏呢,这样就太草率了吧?因此,我们想到再定义一个函数,我们不用直接奖励作为最终的返回值,我们用一个历次奖励的累加组合,这样这个函数中就包括了前面每一步的信息,如果将这个作为每一步的返回值,那肯定比立即奖励函数好点吧,这就是值函数的由来。值函数可以表明当前状态下策略Π的长期奖赏。

值函数(就是状态值函数)定义为:\[{v_\pi }(s) = {{\rm E}_\pi }[{G_t}|{S_t} = s] = {{\rm E}_\pi}\left[ {\sum\limits_{k = 0}^\infty  {{\gamma ^k}{R_{t + k + 1}}|{S_t} = s} } \right]\](2.2)

简单说就是,在策略π下状态s的值,这个值怎么来的呢,就是当前状态下回报return的期望。

    然而,有了状态值函数还不够,如果考虑采取某个确定动作后得到的状态,这该怎么确定值呢,那就再定义一个值函数-----状态动作值函数。表示为:

    \[{q_\pi }(s,a) = {{\rm E}_\pi }[{G_t}|{S_t} = s,{A_t} = a] = {{\rm E}_\pi }\left[ {\sum\limits_{k = 0}^\infty  {{\gamma ^k}{R_{t + k + 1}}|{S_t} = s,{A_t} = a} } \right]\](2.3)

    接下来,上述公式感觉没法用啊,能不能再继续展开一下呢,完全可以,bellman方程就是干这个事情的。于是就有了下式:

   (2.4)

        这个式子比较清晰,离散情况的,没什么具体可以说的,就是这个式子给出了值函数和下一个值函数的递推关系。

  3.值函数的优化

     有了值函数,接下来该怎么寻找最优策略呢,RL的工作就是寻找能使最终目标回报最大的策略。对于每一个状态,如果整个任务重复的回数足够多,那么每一个状态都会有许许多多的状态值函数,这中间,一定会有一个最大值,当然可能几个都是最大并列,这关系不大。定义最优值函数为\[{v_*}(s) = \mathop {\max }\limits_\pi  {v_\pi }(s)\]

     对应的最优动作状态值函数定义为:\[{q_*}(s,a) = \mathop {\max }\limits_\pi  {q_\pi }(s,a)\](2.5)

     然后,就该找到可以求解的公式了,如下所示:

     

 3.价值函数和动作价值函数的关系

     

       策略迭代属于下一节的内容,就不放在这里讲了。

 

参考文献

[1]. Reinforcement learning: an introduction.2017 Draft.

[2].http://blog.csdn.net/greent2008/article/details/53995974

[3].http://blog.csdn.net/zz_1215/article/details/44138823

 

 

 

     

     

     

 

    

 

  

    

       

    

 

转载于:https://www.cnblogs.com/xiachongkun/p/7732444.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值