马尔科夫决策过程（MDP）学习笔记

最新推荐文章于 2023-04-21 22:08:24 发布

Test_hh112

最新推荐文章于 2023-04-21 22:08:24 发布

阅读量925

点赞数

分类专栏：数学基础

本文链接：https://blog.csdn.net/Test_tju/article/details/97778404

版权

数学基础专栏收录该内容

12 篇文章 0 订阅

订阅专栏

1. 概述
MDP由一个代理agent和一个环境 E ，一组可能的状态 S ，一组可用的行动 A ，和奖励函数 r: S×A→r 构成。

在离散时间的步骤中，代理agent不断地从与环境的交互中学习并作出决策。在每个时间步 t ，代理观察环境的当前状态，记作 st∈S ，并根据策略π选择执行一个动作 at∈A 。之后，代理从环境E中收到达到当前状态st的一个标量奖励 rt = r(st,at)∈R⊆R ，并根据环境的转移概率 p (st+1 |st, at) 找到自己的下一个状态 st+1∈S 。

2. MDP 目标
因此，环境E的动态性由agent在当前状态 st 下对所采取行动at的响应的转移概率 p(s’|s,a) 决定，agent的目标是找到最大化其所获得的长期期望折扣报酬的最优策略，即
在这里插入图片描述
3. 策略
策略是一个概率分布，体现了在当前状态下 st 采取行动 at 的概率：

4. 值函数 V(s)
值函数 Value Function （或者可以称为状态值函数 State-Value Function），是根据策略π的指导，在当前状态 st 下，之后能够预期得到的折扣收益：
在这里插入图片描述
5. 行动值函数 Q(s, a)
行动值函数是根据策略 π 的指导，在当前状态 st 下，采取行动 at 后，之后能够预期的折扣收益，即

6. V(s) 与 Q(s, a)
V 函数和 Q 函数都是递归的，可以由 Bellman 方程分别表示递归关系，如下：
在这里插入图片描述
（1）由 Q 表示 V
在状态 st 下，可能采取的行动空间为 A={a1, a2, …, at}，采取各行动的概率由策略 π (a | s) 给出。

所以根据 V 函数的定义，在当前状态 st 下之后能够预期得到的收益即为，在 st 下采取所有的可能行动得到的概率加权收益和：
在这里插入图片描述
（2）由 V 表示 Q
在状态 st 下采取了行动 at 后，将根据环境的转移概率 p (st+1 |st, at) ，到达下一个状态 st+1。

所以根据 Q 函数的定义，在当前状态 st 采取行动 at 后，预期得到的收益即为，采取 at 后可能到达的所有新状态 st+1 的期望收益 v(st+1) 的概率加权收益和，再加上采取行动 at 的奖励 R(s, a)：
在这里插入图片描述
注意：R(s) 表示到达当前状态 s 的奖励， R(s, a)表示再状态 s 下采取行动 a 的奖励。

（3）将 q(s, a) 代入到 v(s)中
在这里插入图片描述
同理也可以得到 Q函数的递归关系式：

7. 选择最优解
上面的 V 函数和 Q 函数都是对未来所有可能收益总和的估计，用以指导 agent 的行动方向。在实际问题中，最终只需要选择一种行为即可。

所以，在政策 π 中的 最优政策 π∗ 的指导下，贝尔曼最优性方程的最优值函数可表示为：
在这里插入图片描述
基于假设完美的MDP模型环境，像值迭代算法的动态规划(DP)算法可以应用于在最优政策π∗下的任何状态s∈S，并获得最优值函数。即对于

选择能使值V最大的最优行动 a，得到在进行下一次迭代时获得的收益：（在实际中采取特点行动，也就不存在了 π(a|s) ）
在这里插入图片描述
注：Σp(s’|s, a)的值为1，所以有 Σp(s’|s, a) * r(s,a) = Rsa。