State和 Observation区别:
State是 Environment的私有表达,我们往往不知道不会直接到的。在 MDP 中,当前状态State(Markov state)包含了所有历史信息,即将来只和现在有关,与过去无关,因为现在状态包含了所有历史信息。举个例子,在一个遵循牛顿第二定律的世界里,我们随意抛出一个小球,某一时刻 t知道了小球的速度和加速度,那么 t之后的小球的位置都可以由当前状态,根据牛顿第二定律计算出来。再举一个夸张的例子,如果宇宙大爆炸时奇点的状态已知,那么以后的所有状态就已经确定,包括人类进化、我写这篇文章和你在阅读这篇文章都是可以根据那一状态推断出来的。当然这只是理想状况,现实往往不会那么简单(因为这只是马尔科夫的一个假设)。只有满足这样条件的状态才叫做马尔科夫状态。即:
正是因为 State太过于复杂,我们往往可以需要一个对 Environment的观察来间接获得信息,因此就有了 Observation。不过 Observation是可以等于 State的,在游戏中,一帧游戏画面完全可以代表当前状态,因此 Observation= State,此时叫做 Full Observability