一、马尔科夫与强化学习
马尔可夫性质在强化学习中很重要,因为决策和价值函数通常被假设为当前状态的函数。为了满足这个要求,状态必须信息足够丰富。本文所有理论都假设满足马尔可夫状态,并且算法可以成功地应用于许多状态不是严格满足马尔可夫的任务。充分理解马尔可夫的性质是将其扩展到更复杂、更现实的非马尔可夫情形的重要基础。最后,我们注意到,马尔可夫状态表示的假设并不是强化学习所独有的,但在大多数其他人工智能方法中也存在。
二、两个典型的例子
示例1:平衡杆游戏,如果状态准确地描述推车沿轨道的位置和速度、推车和杆之间的角度以及该角度的变化率(角速度),则状态满足马尔科夫性质。在理想化的推车-杆系统中,考虑到控制器采取的行动,这些信息足以准确预测推车和杆的未来状态。然而,在实践中,永远不可能准确地知道这些信息,因为任何真实的传感器都会在其测量中引入一些失真和延迟。此外,在任何真正的推车-杆系统中,总是存在其他影响,如杆的弯曲、车轮和杆轴承的温度以及各种形式的齿隙,这些影响都会对系统的行为产生轻微影响。如果状态信号仅为推车和杆的位置和速度,则这些因素将导致违反马尔可夫性质。
然而,通常情况下,位置和速度可以很好地作为状态。一些早期的学习解决极点平衡任务的研究使用了一个粗略的状态信号,该信号将推车位置分为三个区域:右、左和中(以及其他三个内在状态变量的类似粗略量化)。这种明显的非马尔可夫状态足以让任务通过强化学习方法轻松解决。事实上,这种粗略的表示可能通过迫使学习主体忽略在解决任务时不有用的细微区别来促进快速学习。
示例2:抽牌扑克游戏,每个玩家都会得到一手五张牌。有一轮投注,每个玩家用自己的一些牌换新的牌,然后是最后一轮投注。在每一轮比赛中,每个玩家必须匹配或超过其他玩家的最高赌注,否则退出(折叠)。在第二轮下注后,未折起的手牌最好的玩家获胜,并收集所有赌注。平局扑克中的状态信号对每个玩家来说都是不同的。每个玩家都知道自己手中的牌,但只能猜测其他玩家手中的牌。一个常见的错误是认为马尔可夫状态应该包括所有玩家手牌和牌组中剩余牌的内容。然而,在公平的游戏中,我们假设玩家原则上无法从他们过去的观察中确定这些事情。如果玩家确实了解它们,那么她可以比记住过去的所有观察结果更好地预测未来的一些事件(比如可以交换的卡片)。除了了解自己的牌之外,抽牌的状态还应该包括其他玩家的赌注和抽到的牌数。例如,如果其他玩家中有一人抽到了三张新牌,你可能会怀疑他保留了一副,并相应地调整你对他手部力量的猜测。
玩家的赌注也会影响你对他们手牌的评估。事实上,你过去与这些特定玩家的大部分历史都是马尔可夫状态的一部分。是喜欢虚张声势,还是行事保守?对手的脸部表情或举止是否为她的手的力量提供了线索?某些玩家比赛在深夜或已经赢了很多钱的情况下会发生什么变化?
尽管观察到的关于其他玩家的一切可能会影响他们握着各种手的概率,但在实践中,这太多了,无法记忆和分析,而且大多数都不会对一个人的预测和决定产生明确的影响。非常优秀的扑克玩家擅长记住关键线索,并快速评估新玩家,但没有人能记住所有相关的东西。因此,人们用来做出扑克决策的状态表示无疑是非马尔可夫的,而且决策本身可能是不完美的。尽管如此,人们在这样的任务中仍然做出了非常好的决定。我们得出结论,对于强化学习主体来说,无法访问完美的马尔可夫状态表示可能不是一个严重的问题。