[RL] 3 Finite Markov Decision Processes (2)

  在上一篇博客[RL] 3 Finite Markov Decision Processes (1) 中,我们将问题抽象成一个模型,本篇博客,我们将着手解这个模型。

The Markov Property

  在增强学习中,agent根据evironment给出的state做出决策。这里我们先详细探讨一下state:一些state应该满足的条件以及不应该期望state满足的条件。
  state表示所有提供给agent的信息。在这里,我们不考虑state信号如何构成、改变或者学习得到,并不是说state的表示不重要,而是我们更关注决策的制定。

  不应该将state限制为即时感知,state应当给agent更多信息
  显然,state应该包括即时信息,比如刚刚测量到的位置,但是state可以包括更多。state可以是原始信息经过处理后的深层信息,或者也可以是随着时间推移构建出的具有时间维度的信息。比如我们的眼睛一次只看屏幕上具体的一点,经过一次扫描构建出整个屏幕的内容;或者我们听到一个词“yes”,state应该包括之前我们问的问题,因为新的state完全取决于之前的问题;或者一个控制系统可以测得两个不同时间它所处的位置,可以计算得到一个包括速度的state。在所有这些例子中,state基于当前的感知以及之前的state或历史的感知构建。

  不应该期望state提供agent所有关于environment的信息,即使额外的信息在决策时非常有用
  如果agent玩的是21点,那我们不应该期望它能够知道下一张牌是什么;如果agent正在接一个电话,我们不应该期望它知道对方是谁。在所有这些例子中,environment有隐藏的状态信息,如果agent知道这些信息会利于决策,但agent不该知道,因为它没有任何相关的感知。总之,我们不认为agent不知道一些信息是有问题的,它只需要知道一些信息,甚至在之后可以忘记一些信息。

  Markov
  理想情况下,我们想要的是一个state信号,很好地总结了过去的感知,这样一来,所有相关信息就都被保留下来了。这通常比即时的感知更多,但不会超过所有历史感知的总和。一个成功保留所有相关信息的state信号,我们称它为Markov,或者说它具有Markov property(马尔可夫性质)。比如,下棋时当前的格局可以看成是Markov state,因为它包括了之前所有重要的对弈过程。尽管对弈过程中的一些信息丢失了,但所有对之后的对弈而言重要的信息都被保留了下来。

  The Markov Property
  现在我们正式地定义Markov Property。为了数学形式上的简单,我们假设state和reward是有限个的。(这使得我们考虑离散的情况——求和、概率;而不是连续的情况——积分、概率密度,当然扩展到连续的情况是容易的)
  考虑environment如何根据agent在t时刻的action做出t+1时刻的反馈。在最一般的情况下,这取决于所有曾经发生过的事。因此,下一步的变化只能通过完整的联合概率分布刻画:

Pr{ St+1=s,Rt+1=r|S0,A0,R1,...,St1,At1,Rt,St,At}(I)

  即根据所有过去的事件: S0,A0,R1,...,St1,At1,Rt,St,At ,environment反馈 r,s 的概率。

  如果state满足Markov Property,那么environment在t+1时刻的反馈将只取决于t时刻的state和action,因此下一步的变化可以通过下式刻画:

p(s,r|s,a)Pr{ St+1=s,Rt+1=r|St=s,At=a}(II)

  换句话说,一个state是Markov state,当且仅当:

s,rS0,A0,R1,...,St1,At1,Rt,St,At(I)p(s,r|St
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值