强化学习笔记（二）马尔可夫决策过程

最新推荐文章于 2022-06-11 11:10:06 发布

LittleDragorse

最新推荐文章于 2022-06-11 11:10:06 发布

阅读量264

点赞数

分类专栏：机器学习强化学习文章标签：机器学习

本文链接：https://blog.csdn.net/LittleDragorse/article/details/124594919

版权

机器学习同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

强化学习

2 篇文章 0 订阅

订阅专栏

马尔可夫性

序贯决策：智能体状态会随时间发生转移
马尔可夫性：未来状态只依赖于当前状态。这里涉及到对“状态”的定义。
$\mathbb P[s_{t+1}|s_1,\cdots,s_t]=\mathbb P[s_{t+1}|s_t]$
部分可观测：智能体不能获得环境的全部信息s，只能获得观测量o
$s_t\neq o_t$
- 部分情况可以通过观测量推测出状态，从而将部分可观测问题转化成全观测问题
状态转移概率 $\mathcal P_{ss'}=\mathbb P[s_{t+1}=s'|s_t=s]$
状态转移矩阵：包含从所有状态s到所有状态s’的转移概率。行元素之和为1

马尔可夫过程MP

一个无记忆的随机过程，一组具有马尔可夫性的状态，用 $<\mathcal S,\mathcal P>$ 表示。

马尔可夫奖励过程MRP

马尔可夫奖励过程由 $<\mathcal S,\mathcal P,\mathcal R,\gamma>$ 组成

回报和价值

回报是一条轨迹的折扣累加奖励
$G_t=\sum_{i=0}^\infty \gamma^ir_{t+i+1}$
状态s的价值是其所有轨迹的期望
$V(s)=\mathbb E[G_t|s_t=s]$

折扣因子的意义

方便调整奖励的重要性
在连续MDPs问题中可以避免无穷回报
更重视近期奖励，与自然界相仿
在有终止状态的问题中可以采用无折扣的马尔可夫奖励过程

贝尔曼方程及其变形

$\begin{aligned} V(s)&=\mathbb E[G_t|s_t=s]\\ &=\mathbb E[r_{t+1}+\gamma G_{t+1}|s_t=s]\\ &=\mathbb E[r_{t+1}+\gamma V(s_{t+1})|s_t=s]\\ &=\mathcal R(s)+\gamma\sum_{s'\in S}\mathcal P_{ss'}V(s') \end{aligned}$
贝尔曼方程的矩阵形式及其变形
$\begin{aligned}\mathcal V&=\mathcal R+\gamma\mathcal{PV}\\ (I-\gamma\mathcal P)\mathcal V&=\mathcal R\\ \mathcal V&=(I-\gamma\mathcal P)^{-1}\mathcal R \end{aligned}$
由于需要求状态转移矩阵的逆，因此需要 $O(n^3)$ 的计算复杂度

马尔可夫决策过程MDP

马尔可夫决策过程 $\mathcal M=<\mathcal S,\mathcal A,\mathcal P,\mathcal R,\gamma>$

$\mathcal P_{ss'}^a=\mathbb P[s'=s_{t+1}|s_t=s,a_t=a]$
$\mathcal R_s^a=\mathbb E[r_{t+1}|s_t=s,a_t=a]$

策略

策略是状态到动作概率分布的映射。
$\pi(a|s)=\mathbb P[a_t=a|s_t=s]$
$\pi(s)$ 在不确定策略中是状态s下选取各动作的概率分布，在确定性策略中则是动作a

价值

状态价值V是从状态s出发在策略 $\pi$ 指导下的期望回报 $V_\pi(s)=\mathbb E[G_t|s_t=s]$
动作价值Q是从状态s出发，先采取动作a，然后在策略 $\pi$ 指导下的期望回报
$Q_\pi(s,a)=\mathbb E[G_t|s_t=s,a_t=a]$

贝尔曼期望方程及其推导

$V_\pi(s)=\sum_{a\in \mathcal A}\pi(a|s)Q_\pi(s,a)\\ Q_\pi(s,a)=\mathcal R_s^a+\gamma\sum_{s'\in \mathcal S}\mathcal P_{ss'}^aV_\pi(s')\\ V_\pi(s)=\sum_{a\in \mathcal A}\pi(a|s)\big(\mathcal R_s^a+\gamma\sum_{s'\in \mathcal S}\mathcal P_{ss'}^aV_\pi(s')\big)\\ Q_\pi(s,a)=\mathcal R_s^a+\gamma\sum_{s'\in \mathcal S}\mathcal P_{ss'}^a\sum_{a'\in \mathcal A}\pi(a'|s')Q_\pi(s',a')$
矩阵形式
$\mathcal V_\pi=\mathcal R^\pi+\gamma\mathcal P^\pi\mathcal V_\pi\\ \mathcal V_\pi=(I-\gamma\mathcal P^\pi)^{-1}\mathcal R^\pi$

最优价值

$V_*=\max_\pi V_\pi(s)\\ Q_*=\max_\pi Q_\pi(s,a)$

最优策略

$\pi\geq\pi'\text{ if }V_\pi(s)\geq V_\pi'(s),\forall s\\ \pi_*\geq \pi,\forall \pi$

最优化原理

对于最优策略而言，不论初始状态和初始决策是什么，余下的决策仍是余下问题的最优策略。
$V_*(s)=\max_a\big(\mathcal R_s^a+\gamma\sum_{s'\in \mathcal S}\mathcal P_{ss'}^aV_*(s')\big)\\ Q_*(s,a)=\mathcal R_s^a+\gamma\sum_{s'\in \mathcal S}\mathcal P_{ss'}^aV_*(s')\\ V_*(s)=\max_aQ_*(s,a)\\ Q_*(s,a)=\mathcal R_s^a+\gamma\sum_{s'\in \mathcal S}\mathcal P_{ss'}^a\max_{a'}\pi(a'|s')Q_*(s',a')$

寻找最优策略

$\pi_*(s)=\argmax_a\big(\mathcal R_s^a+\gamma\sum_{s'\in \mathcal S}\mathcal P_{ss'}^aV_*(s')\big)\\ \pi_*(s)=\argmax_aQ_*(s,a)$

模型的不同分类

状态空间是否连续
动作空间是否连续
确定性模型与非确定性模型
连续时间与离散时间
奖励与惩罚，最大化奖励，最小化惩罚

不同形式的回报

无限时域的累加奖励 $G(s_0)=\sum_{t=0}^\infty\gamma^tr_{t+1}$
- 终止状态：轨迹结束，奖励也到此时刻为止
无限时域的平均奖励 $G(s_0)=\lim_{T\to \infty}\frac1T\sum^T_{t=1}r_t$
- 不存在终止状态，但存在各态遍历
有限时域的累加奖励 $G(s_0)=\sum^{T-1}_{t=0}\gamma^tr_{t+1}$
有限时域的平均奖励 $G(s_0)=\frac1T\sum^T_{t=1}r_t$

LittleDragorse

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习笔记（二）马尔可夫决策过程

马尔可夫性序贯决策：智能体状态会随时间发生转移马尔可夫性：未来状态只依赖于当前状态。这里涉及到对“状态”的定义。P[st+1∣s1,⋯ ,st]=P[st+1∣st]\mathbb P[s_{t+1}|s_1,\cdots,s_t]=\mathbb P[s_{t+1}|s_t]P[st+1∣s1,⋯,st]=P[st+1∣st]部分可观测：智能体不能获得环境的全部信息s，只能获得观测量ost≠ots_t\neq o_tst=ot部分情况可以通过观测量推测出状态，从而将部分可
复制链接

扫一扫