强化学习基础知识笔记[1] - 马尔可夫决策过程

最新推荐文章于 2024-07-24 15:16:19 发布

AaronXueNF

最新推荐文章于 2024-07-24 15:16:19 发布

阅读量376

点赞数

分类专栏：强化学习笔记文章标签：概率论机器学习人工智能强化学习马尔科夫决策过程

本文链接：https://blog.csdn.net/AaronXueNF/article/details/120606351

版权

强化学习笔记专栏收录该内容

8 篇文章 1 订阅

订阅专栏

强化学习基本原理

智能体通过动作A与环境进行交互，形成状态S->S’的改变并得到回报R。在不断的交互过程中，强化学习利用交互得到的数据修正自身的动作策略，最终习得该环境下完成相应任务的最优策略。

参考资料
[1] 强化学习入门第一讲 MDP

预备知识 - 马尔可夫概念

马尔可夫性

马尔可夫性指系统下一状态 $S_{t+1}$ 仅与当前状态 $s_{t}$ 有关，与以前的状态无关，当前状态可以反映所有历史状态。
公式描述：
$P[s_{t+1}|s_t] = P[s_{t+1}|s_1,s_2,...,s_t] \tag{1.1}$

马尔可夫随机过程

随机过程即一组随机变量序列，马尔可夫随机过程指其中的每一个随机变量均具有马尔可夫性，即只与前一个随机变量相关。

马尔可夫过程

马尔可夫过程定义为：二元组(S,P)，S为有限状态集合，P为状态转移概率矩阵。
$\left[ \begin{matrix} P_{11} & \cdots & P_{1n} \\ \vdots & \ddots & \vdots \\ P_{n1} & \cdots & P_{nn} \\ \end{matrix} \right] \tag{1.2}$

马尔可夫链

给定马尔可夫过程(S,P)后，从一状态出发到一状态结束存在多条路径，每条路径为马尔可夫链。

马尔可夫决策过程

马尔可夫决策过程定义为：多元组(S, A, P, R, γ)
其中：

S为有限状态集合
A为有限动作集合
P为状态转移概率
R为回报函数
γ为折扣因子

马尔可夫决策过程的状态转移包含概率：
$P^{a}_{ss'} = P[S_{t+1} = s'|S_t = s, A_t = a] \tag{1.3}$
理解：

$P^{a}_{ss'}$ 为采取动作a从状态s转移到s’的概率

马尔可夫决策过程与强化学习

强化学习的目标

给定马尔可夫决策过程(S, A, P, R, γ)，寻找一组最优策略：
$\pi(a|s) = p[A_t = a | S_t = s] \tag{2.1}$

解释：

$\pi$ 为一个集合，其中元素为在s状态下采取行为a的概率。

采取概率的原因：为了将探索的过程融合到采样过程中，以便学习新的策略。

累计回报函数

累计回报定义为 $G_t$ ：
$G_t = R_{t+1} + \gamma R_{t+2} + ... = \sum^{\infty}_{k=0} \gamma ^{k}R_{t+k+1} \tag{2.2}$

理解：

$R_{t+1}$ 为采取某一行动a从初始状态 $S_t$ 转换到 $S_{t+1}$ 获得的回报
γ为折扣因子

因为从状态St出发到结束存在多种路径，经历每一条路径需要不同的行动，且获得的回报也不一定相同。
根据(2.1)式，策略为一个概率，因此对于累计回报函数而言其取值为一个随机变量，分布由策略 $\pi$ 决定 -> 需要根据数字特征研究其性质。

状态值函数

状态值函数为累计回报函数的数学期望：
$v_\pi (s) = E_\pi[G_t] = E_\pi \left[ \sum^{\infty}_{k=0} \gamma ^{k}R_{t+k+1} | S_t = s \right] \tag{2.3}$

理解：

下标 $\pi$ 为给定的策略，其决定累计回报函数G的分布
表示给定策略组 $\pi$ 、初始状态s的条件下，采取不同行动、路径得到的累计回报值的均值

状态值函数贝尔曼方程

$v_\pi (s) = E_\pi[G_t | S_t = s] = E_\pi[R_{t+1} + \gamma v(S_{t+1}) | S_t = s] \tag{2.3.1}$
贝尔曼方程刻画了状态值函数的递推形式。

状态-行为值函数

$q_\pi (s,a) = E_\pi \left[ \sum^{\infty}_{k=0} \gamma ^{k}R_{t+k+1} | S_t = s , A_t = a \right] \tag{2.4}$

理解：

下标 $\pi$ 为给定的策略，其决定累计回报函数G的分布
表示给定策略组 $\pi$ 、初始状态s、初始行为a的条件下，采取不同行动、路径得到的累计回报值的均值

状态-行为值函数贝尔曼方程

$q_\pi (s,a) = E_\pi[R_{t+1} + \gamma v(S_{t+1}, A_{t+1}) | S_t = s, A_t = a] \tag{2.4.1}$

式(2.3)-(2.4)详细推导过程参考[1]，这里就偷懒不写了（（（

状态值函数与状态-行为值函数的关系

$v_\pi (s) = \sum_{a \in A} \pi(a|s)q_{\pi}(s,a) \tag{2.5.1}$

理解：

$\pi(a|s)$ 为在策略 $\pi$ 下采取行动a的概率
$q_{\pi}(s,a)$ 为在状态s下采取行动a后在策略 $\pi$ 下期望的回报

$q_\pi (s,a) = R^a_s + \gamma\sum_{s'} P^{a}_{ss'}v_{\pi}(s') \tag{2.5.2}$

理解：

$R^a_s$ 为在s下采取a的回报
$P^{a}_{ss'}$ 为采取动作a从状态s转移到s’的概率

从式(2.5.1)，(2.5.2)中可以看出，状态值函数与状态-行为值函数在递推过程中存在相互转化的关系。

最优策略与最优状态函数

最优状态函数：

$v^*(s) = max_{\pi}v_{\pi}(s) \tag{2.6.1}$

其贝尔曼方程形式：
$v^*(s) = max_{a}R^a_{s} + \gamma\sum_{s \in S} P^{a}_{ss'}v^*(s') \tag{2.6.2}$

最优状态-行为值函数：

$q^*(s,a) = max_{\pi}q_{\pi}(s,a) \tag{2.6.3}$

其贝尔曼方程形式：
$q^*(s,a) = R^a_{s} + \gamma\sum_{s \in S} P^{a}_{ss'}max_{a'}q^*(s',a') \tag{2.6.4}$

理解：

在状态s下采取a得到回报后，对于采取该行动所有可达的状态均采取最大的状态-行为值函数（其实也是策略的选择）

在已知最优状态-动作值函数，可直接选择最优策略：
$\pi_*(a|s) = \left\{ \begin{aligned} 1 && if a = argmaxq_*(s,a)\\ 0 && other \end{aligned}\right. \tag{2.7}$

强化学习的目标

给定马尔可夫决策过程
$\rho0, \gamma, T) \tag{3}$
其中：

S为状态集合
A为动作集合
P为转移概率 $\to R$ ，即在s下采取动作a转移到s’的概率，是一个到实数域的映射
r为 $\to [-R_{max}, R_{max}]$ ，立即回报函数，状态s下采取a的回报
$\gamma \in [0,1]$ 为折扣因子
T为水平范围（步数）

强化学习的目标可以描述为：在给定上述马尔可夫决策过程下，找到最优策略 $\pi$ ，最大化累计回报函数(2.2)。

需要说明的是，当值函数最优时采取的策略也是最优的。反过来，策略最优时值函数也最优。

AaronXueNF

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
强化学习基础知识笔记[1] - 马尔可夫决策过程

强化学习基本原理智能体通过动作A与环境进行交互，形成状态S->S’的改变并得到回报R。在不断的交互过程中，强化学习利用交互得到的数据修正自身的动作策略，最终习得该环境下完成相应任务的最优策略。参考资料[1] 强化学习入门第一讲 MDP预备知识 - 马尔可夫概念马尔可夫性马尔可夫性指系统下一状态St+1S_{t+1}St+1仅与当前状态sts_{t}st有关，与以前的状态无关，当前状态可以反映所有历史状态。公式描述：P[st+1∣st]=P[st+1∣s1,s2,...,st](1
复制链接

扫一扫

专栏目录