揭秘深度强化学习-3强化学习理论依据——马尔科夫决策过程

看完觉得深受启发的一篇文章,根据自己的理解翻译过来留以后再次翻看

原文地址http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/

马尔科夫决策过程(Markov Decision Process)

现在我们来看看如何构造一个强化学习问题的公式。最常用的是基于马尔科夫决策过程(Markov decision process)。

让我们发散想象力,以打砖块游戏为例,帮助我们理解整个过程。想象你是一个智体(Agent),处于一个环境中(enviroment)——比如说打砖块游戏,你在这个环境中处于一种特定的状态(state)——比如说打砖块游戏中平板的位置,小球的方向和位置,每一个砖块的存在等,智体(Agent)可以在环境(enviroment)中行动(action)——比如说移动平板向左或向右,这些行为有时会获得奖励(Reward)——也就是消砖块获得分数,行动使环境由旧状态转变为新状态,此时智体又可以进行下一步行动,以此类推。智体(Agent)如何选择这些行为(action)的准则被称为策略(policy)。环境通常是随机的,这意味着下一状态可能也是随机的——比如说你输了一个球,获得一个新球时它是朝向随机方向的。

 

一组状态和行动(state,action),状态转换规则,获得奖励的方法:构成了一个完整的马尔科夫决策过程。一个周期的进程(比如一局游戏)构成了一个关于状态、行动和奖励的有限序列:

    s0,a0,r1,s1,a1,r2,s2,…,sn−1,an−1,rn,sn

在这里,si表示状态,ai表示行动,ri+1表示行为后获得奖励。这个周期以终结状态sn为终点(game over)。

来了解一下马尔科夫假设:下一状态si+1仅仅依赖于当前状态si和当前行动ai,与之前的状态和行为无关。马尔科夫决策过程正是基于这一假设。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值