马尔科夫决策过程(MDP)学习笔记

1. 概述
MDP由一个代理agent和一个环境 E ,一组可能的状态 S ,一组可用的行动 A ,和奖励函数 r: S×A→r 构成。

在离散时间的步骤中,代理agent不断地从与环境的交互中 学习并作出决策。在每个时间步 t ,代理观察环境的当前状态,记作 st∈S ,并根据策略π选择执行一个动作 at∈A 。之后,代理从环境E中收到达到当前状态st的一个标量奖励 rt = r(st,at)∈R⊆R ,并根据环境的转移概率 p (st+1 |st, at) 找到自己的下一个状态 st+1∈S 。

2. MDP 目标
因此,环境E的动态性由agent在当前状态 st 下对所采取行动at的 响应的转移概率 p(s’|s,a) 决定,agent的目标是找到最大化其所获得的长期期望折扣报酬的最优策略,即
在这里插入图片描述
3. 策略
策略是一个概率分布,体现了在当前状态下 st 采取行动 at 的概率:
在这里插入图片描述
4. 值函数 V(s)
值函数 Value Function (或者可以称为状态值函数 State-Value Function),是根据策略π的指导,在当前状态 st 下,之后能够预期得到的折扣收益:
在这里插入图片描述
5. 行动值函数 Q(s, a)
行动值函数是根据策略 π 的指导,在当前状态 st 下,采取行动 at 后,之后能够预期的折扣收益,即
在这里插入图片描述
6. V(s) 与 Q(s, a)
V 函数和 Q 函数都是递归的,可以由 Bellman 方程分别表示递归关系,如下:
在这里插入图片描述
(1)由 Q 表示 V
在状态 st 下,可能采取的行动空间为 A={a1, a2, …, at},采取各行动的概率由策略 π (a | s) 给出。

所以根据 V 函数的定义,在当前状态 st 下之后能够预期得到的收益即为,在 st 下采取所有的可能行动得到的概率加权收益和:
在这里插入图片描述
(2)由 V 表示 Q
在状态 st 下采取了行动 at 后,将根据环境的转移概率 p (st+1 |st, at) ,到达下一个状态 st+1。

所以根据 Q 函数的定义,在当前状态 st 采取行动 at 后,预期得到的收益即为,采取 at 后可能到达的所有新状态 st+1 的期望收益 v(st+1) 的概率加权收益和,再加上采取行动 at 的奖励 R(s, a):
在这里插入图片描述
注意:R(s) 表示到达当前状态 s 的奖励, R(s, a)表示再状态 s 下采取行动 a 的奖励。

(3)将 q(s, a) 代入到 v(s)中
在这里插入图片描述
同理也可以得到 Q函数的递归关系式:
在这里插入图片描述
7. 选择最优解
上面的 V 函数和 Q 函数都是对未来所有可能收益总和的估计,用以指导 agent 的行动方向。在实际问题中,最终只需要选择一种行为即可。

所以,在政策 π 中的 最优政策 π∗ 的指导下,贝尔曼最优性方程的最优值函数可表示为:
在这里插入图片描述
基于假设完美的MDP模型环境,像值迭代算法的动态规划(DP)算法可以应用于在最优政策π∗下的任何状态s∈S,并获得最优值函数。即对于
在这里插入图片描述
选择能使值V最大的最优行动 a,得到在进行下一次迭代时获得的收益:(在实际中采取特点行动,也就不存在了 π(a|s) )
在这里插入图片描述
注:Σp(s’|s, a)的值为1,所以有 Σp(s’|s, a) * r(s,a) = Rsa。

一旦得到最优值函数V∗(s),最优的行动值函数可以通过下式得到:
在这里插入图片描述
然后,最优政策 π∗ 在状态s下贪婪地选择最优行动,如下:
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值