强化学习（第二版）笔记——第三章有限马尔可夫决策过程

最新推荐文章于 2024-07-11 13:14:55 发布

十六次宇宙闪烁

最新推荐文章于 2024-07-11 13:14:55 发布

阅读量800

点赞数

分类专栏：强化学习文章标签：机器学习强化学习

本文链接：https://blog.csdn.net/weixin_38886470/article/details/121226798

版权

参考

周博磊老师课程
Richard S.Sutton 《Reinforcement Learning》第三章

有限马尔可夫决策过程 Markov Decision Process MDP

1 “智能体-环境”交互接口
2 马尔可夫过程（Markov Process）
3 策略和价值函数（policy and value function）
4 最优策略和最优价值函数
5 最优性和近似算法

1 “智能体-环境”交互接口

进行学习及实施决策的机器被称为智能体(agent)。智能体之外所有与其相互作用的事物都被称为环境(environment)。这些事物之间持续进行交互，智能体选择动作，环境对这些动作做出相应的响应，并向智能体呈现出新的状态。环境会产生一个收益(reward)，通常是特定的数值，这就是智能体在动作选择过程中想要最大化的目标，如图1.1所示。
图1.1 马尔可夫决策过程中的“智能体-环境”交互
在每个离散时刻 $t = 0, 1, 2, 3, . . .$ ，智能体和环境都发生了交互。在每个时刻 $t$ ，智能体观察到所在的环境状态的某种特征表达， $S_t\in S$ ，并且在此基础上选择一个动作， $A_t\in A(s)$ 。下一时刻，作为其动作的结果，智能体接收到一个数值化的收益， $R_{t+1}\in R\subset\mathbb R$ ，并进入一个新的状态 $S_{t+1}$ 。从而，MDP和智能体共同给出了一个序列或轨迹，类似这样
$S_0,A_0,R_1,S_1,A_1,R_2,S_2,A_2,R_3,... \tag{1.1}$

1.1 交互过程一些函数

1.1.1 状态与收益的概率函数

在有限MDP中，状态、动作和收益的集合( $S$ 、 $A$ 和 $R$ )都只有有限个元素。在这种情况下，随机变量 $R_t$ 和 $S_t$ 具有定义明确的离散概率分布，并且只依赖于前继状态和动作。也就是说，给定前继状态和前一个动作的值时，这些随机变量的特定值，状态 $s'\in S$ 和收益 $r\in R$ ，在 $t$ 时刻出现的概率是
$\dot= Pr\{S_t=s',R_t=r|S_{t-1}=s,A_{t-1}=a\}\tag{1.2}$
对于任意 $s',s\in S,r\in R,a\in A(s)$ 。函数 $p$ 定义了MDP的动态特性，中间“|”是表示条件概率的符号。 $s$ 表示前继状态， $s^{'}$ 表示当前状态， $a$ 表示动作， $r$ 表示收益。动态函数 $p:S\times R\times S\times A\to[0,1]$ 是有四个参数的普通确定性函数。

1.1.2 状态转移概率函数

状态转移概率函数是一个三参数函数 $p:S\times S\times A\to[0,1]$
$\dot= Pr\{S_t=s'|S_{t-1}=s,A_{t-1}=a\}=\sum_{r\in R}p(s',r|s,a)\tag{1.3}$
可以用状态转移矩阵 $P$ 来描述状态转移概率 $p(s_t=s'|s_{t-1}=s)$
$\begin{bmatrix} p(s_1|s_1) & p(s_2|s_1) &\cdots & p(s_n|s_1) \\ p(s_1|s_2) & p(s_2|s_2) &\cdots & p(s_n|s_2) \\ \vdots & \vdots & \ddots & \vdots \\ p(s_1|s_n) & p(s_2|s_n) &\cdots & p(s_n|s_n) \\ \end{bmatrix}\tag{1.4}$

最低0.47元/天解锁文章

十六次宇宙闪烁

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
强化学习（第二版）笔记——第三章有限马尔可夫决策过程

有限马尔可夫决策过程1. “智能体-环境”交互接口1.1 状态与收益的概率函数1.2 状态转移概率函数1.3“状态-动作”二元组的期望收益1.4“状态-动作-后继状态”三元组的期望收益2.目标和收益3.回报和分幕功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowcha
复制链接

扫一扫