马尔科夫性质

一、智能体与环境的关系

        在强化学习框架中,智能体根据来自环境的反馈做出决策。本文讨论下状态一般怎么定义,以及我们期望它提供什么样的信息。特别是当当定义了一个环境,以及我们对它关注的某些状态所具备的一些性质,可称之为马尔可夫性质。

        一般状态指智能体可以获得的任何信息。状态属于环境处理后给出的。本文不讨论构建、改变或学习状态,并不是因为我们认为状态不重要,而是充分关注决策问题。换句话说,我们主要关心的不是设计状态,而是根据可用的状态来决定采取什么行动。

二、状态应该怎么表征

        当然,状态应该包括即时感觉,比如传感器测量,但它可以包含更多。状态表征可以是原始感觉,也可以是随着时间的推移从感觉序列中建立起来的复杂结构。例如,我们可以在一个场景上移动眼睛,在任何时候都只能看到与中央凹相对应的微小斑点的细节,但却可以构建出丰富而详细的场景表示。或者,更明显的是,我们可以看着一个物体,然后移开视线,知道它仍然在那里。我们可以听到“是”这个词,并认为自己处于完全不同的状态,这取决于之前出现的问题,而这个问题已经听不见了。又比如,控制系统可以在两个不同的时间测量位置,以产生包括速度信息的状态表示。在所有这些情况下,状态是在即时感觉以及先前状态或过去感觉的一些其他记忆的基础上构建和维持的。虽然不探讨如何做到这一点,但可以肯定的是这是可以做到的,而且已经做到了。没有理由将状态表征局限于即时感觉;在典型的应用程序中,我们应该期望状态表示能够向智能体通知更多信息。

        另一方面,不应该期望状态告知智能体关于环境的一切,甚至是在做出决策时对其有用的一切。如果智能体在玩21点,我们不应该期望它知道牌组中的下一张牌是什么。如果智能体在接电话,我们不应期望它提前知道打电话的人是谁。如果智能体是一名因道路事故而被呼叫的护理人员,我们不应当期望它立即知道昏迷受害者的内伤。在所有这些情况下,环境中都存在隐藏的状态信息,如果智能体知道这些信息,那么这些信息将是有用的,但智能体无法知道,因为它从未接收到任何相关的感觉。简言之,我们不会责怪智能体不知道重要的事情。

        理想情况下,我们想要的是一个状态,它总结了过去的感觉,保留了所有相关信息。这通常需要的不仅仅是眼前的感觉,但永远不会超过所有过去感觉的完整历史。成功保留所有相关信息的状态信号被称为马尔可夫,或具有马尔可夫性质。例如,跳棋的位置——棋盘上所有棋子的当前配置——将作为马尔可夫状态,因为它总结了导致它的完整位置序列的所有重要信息。关于该序列的大部分信息都丢失了,但对游戏未来真正重要的所有信息都保留了下来。同样,炮弹的当前位置和速度对其未来的飞行至关重要。这个位置和速度是如何产生的并不重要。这有时也被称为“路径独立性”属性,因为所有重要的都在当前状态信号中;它的意义独立于通向它的信号的“路径”或历史。

三、强化学习的马尔科夫性质

        现在定义下强化学习问题的马尔可夫性质。为了保持数学简单,我们假设存在有限数量的状态和奖励值。这使我们能够根据和和概率而不是积分和概率密度来工作,很容易地扩展到包括连续状态和奖励。

        考虑一下一般环境在时间t+1对时间t采取的行动的反应。在最普遍的因果情况下,这种反应可能取决于之前发生的一切。在这种情况下,只能通过指定完整的概率分布来定义动力学:

        对于过去事件的所有rS’和所有可能值:SAR。另一方面,如果状态具有马尔可夫性质,则环境在t+1处的响应仅取决于t处的状态和动作表示,在这种情况下,环境可以仅通过下式指定

        换句话说,状态具有马尔可夫性质,并且是马尔可夫状态。在这种情况下,环境和任务作为一个整体也被认为具有马尔可夫性质。

        如果一个环境具有马尔可夫性质,那么我们能够在给定当前状态和动作的情况下预测下一个状态和预期的下一个奖励。可以证明,通过迭代这个方程,可以仅从当前状态的知识中预测所有未来状态和预期回报,并且在给定到当前时间的完整历史的情况下也是可能的。还得出结论,马尔可夫状态为选择行动提供了尽可能好的基础。也就是说,作为马尔可夫状态的函数选择动作的最佳策略与作为完整历史的函数选择行动的最佳策略一样好。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Older司机渣渣威

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值