[RL] 3 Finite Markov Decision Processes (2)

最新推荐文章于 2020-11-01 20:45:15 发布

VIP文章 hubin00sx

最新推荐文章于 2020-11-01 20:45:15 发布

阅读量527

点赞数 1

分类专栏： RL 增强学习 MDP 马尔科夫决策过程文章标签： RL 增强学习

本文链接：https://blog.csdn.net/hubin00sx/article/details/64920615

版权

在上一篇博客[RL] 3 Finite Markov Decision Processes (1) 中，我们将问题抽象成一个模型，本篇博客，我们将着手解这个模型。

The Markov Property

在增强学习中，agent根据evironment给出的state做出决策。这里我们先详细探讨一下state：一些state应该满足的条件以及不应该期望state满足的条件。
state表示所有提供给agent的信息。在这里，我们不考虑state信号如何构成、改变或者学习得到，并不是说state的表示不重要，而是我们更关注决策的制定。

不应该将state限制为即时感知，state应当给agent更多信息
显然，state应该包括即时信息，比如刚刚测量到的位置，但是state可以包括更多。state可以是原始信息经过处理后的深层信息，或者也可以是随着时间推移构建出的具有时间维度的信息。比如我们的眼睛一次只看屏幕上具体的一点，经过一次扫描构建出整个屏幕的内容；或者我们听到一个词“yes”，state应该包括之前我们问的问题，因为新的state完全取决于之前的问题；或者一个控制系统可以测得两个不同时间它所处的位置，可以计算得到一个包括速度的state。在所有这些例子中，state基于当前的感知以及之前的state或历史的感知构建。

不应该期望state提供agent所有关于environment的信息，即使额外的信息在决策时非常有用
如果agent玩的是21点，那我们不应该期望它能够知道下一张牌是什么；如果agent正在接一个电话，我们不应该期望它知道对方是谁。在所有这些例子中，environment有隐藏的状态信息，如果agent知道这些信息会利于决策，但agent不该知道，因为它没有任何相关的感知。总之，我们不认为agent不知道一些信息是有问题的，它只需要知道一些信息，甚至在之后可以忘记一些信息。

Markov
理想情况下，我们想要的是一个state信号，很好地总结了过去的感知，这样一来，所有相关信息就都被保留下来了。这通常比即时的感知更多，但不会超过所有历史感知的总和。一个成功保留所有相关信息的state信号，我们称它为Markov，或者说它具有Markov property（马尔可夫性质）。比如，下棋时当前的格局可以看成是Markov state，因为它包括了之前所有重要的对弈过程。尽管对弈过程中的一些信息丢失了，但所有对之后的对弈而言重要的信息都被保留了下来。

The Markov Property
现在我们正式地定义Markov Property。为了数学形式上的简单，我们假设state和reward是有限个的。（这使得我们考虑离散的情况——求和、概率；而不是连续的情况——积分、概率密度，当然扩展到连续的情况是容易的）
考虑environment如何根据agent在t时刻的action做出t+1时刻的反馈。在最一般的情况下，这取决于所有曾经发生过的事。因此，下一步的变化只能通过完整的联合概率分布刻画：

P r {S t + 1 = s', R t + 1 = r | S 0, A 0, R 1, . . ., S t - 1, A t - 1, R t, S t, A t} (I)

$Pr\{S_{t+1}=s', R_{t+1} = r \,|\,S_0,A_0,R_1,...,S_{t-1},A_{t-1},R_t,S_t,A_t\}\,\,\,\,\,\,\,\,\,\,(I)$
即根据所有过去的事件：

S0,A0,R1,...,St−1,At−1,Rt,St,At $S_0,A_0,R_1,...,S_{t-1},A_{t-1},R_t,S_t,A_t$ ，environment反馈

r,s′ $r, s'$ 的概率。

如果state满足Markov Property，那么environment在t+1时刻的反馈将只取决于t时刻的state和action，因此下一步的变化可以通过下式刻画：

p (s', r | s, a) ≐ P r {S t + 1 = s', R t + 1 = r | S t = s, A t = a} (I I)

$p(s',r\,|\,s,a) \doteq Pr\{S_{t+1}=s',R_{t+1}=r\,|\,S_t=s,A_t=a\}\,\,\,\,\,\,\,\,\,\,\,(II)$

换句话说，一个state是Markov state，当且仅当：

对 任 意 s', r 以 及 历 史 上 的 S 0, A 0, R 1, . . ., S t - 1, A t - 1, R t, S t, A t ， (I) 式 等 于 p (s', r | S t

最低0.47元/天解锁文章

hubin00sx

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[RL] 3 Finite Markov Decision Processes (2)

在上一篇博客[RL] 3 Finite Markov Decision Processes (1) 中，我们将问题抽象成一个模型，本篇博客，我们将着手解这个模型。The Markov Property 在增强学习中，agent根据evironment给出的state做出决策。这里我们先详细探讨一下state：一些state应该满足的条件以及不应该期望state满足的条件。 state表示所有
复制链接

扫一扫