强化学习入门介绍--马尔可夫决策过程、最优化原理、贝尔曼方程

最新推荐文章于 2024-03-20 11:31:07 发布

乾小二

最新推荐文章于 2024-03-20 11:31:07 发布

阅读量5.1k

点赞数 13

分类专栏： ReinforcementLearning 文章标签： ReinforcementLearning 强化学习

本文链接：https://blog.csdn.net/weixin_43340943/article/details/90105454

版权

ReinforcementLearning 专栏收录该内容

1 篇文章 2 订阅

订阅专栏

强化学习介绍

强化学习是一种优化智能体在环境中行为的一种方法。根据环境反馈的奖励，调整智能体的行为策略，提升智能体实现目标的能力。

以训练狗握手为例，当狗把前爪放在训练人手中，训练人会给狗食物作为奖励，否则不给食物。经长时间训练后，狗会主动和人握手。

这里，狗是智能体，训练人给的食物相当于环境反馈的奖励，狗通过这个奖励会不断调整自己的行为，主动学会握手动作。

强化学习考虑的是序贯决策过程。

序贯决策过程（Sequential Decision Making）：智能体处在特定的环境中产生一系列的动作，而环境能够根据这些动作改变智能体的当前状态。

到这里我们可以知道，学习过程中没有明确告诉采取哪些动作是可以实现目标的，只能通过间接的奖励信号反映目标实现的情况。

所以，强化学习也称为试错法（trail-and-error），通过智能体和环境的交互得到反馈的信号。学习策略可以简单总结为强化正反馈的策略，避免负反馈的策略。强化学习不太适合于无法进行大量实验的场景，比如安全因素（开车碰撞）。但是如果能建立仿真模型且精度满足要求时，在仿真环境使用强化学习方法得到的策略依然能够在实际应用中有很好的效果。

在强化学习中，奖励是一个很重要的概念。智能体通过环境反馈的奖励去调整行为决策。

奖励是一个标量的反馈信号，表示智能体在时刻 t 下行为或所处状态的好坏，智能体的任务是最大化累加奖励。

智能体通过反馈的奖励调整行为是基于所有的目标都可以通过最大化期望累加奖励实现这一假设的。

与其他机器学习的不同

强化学习	监督学习/非监督学习
产生的结果（动作）能够改变数据的分布（状态）	产生的结果（输出）不会改变数据的分布
最终的目标可能要很长时间才能观察到	结果是瞬时的
没有明确的标签数据	要么有明确的标签数据，要么完全没有任何标签数据

马尔可夫决策过程

我们在前面讲过序贯决策过程（Sequential Decision Making），其目标是选择一组动作使未来奖励和最大化，动作可能在未来很久才会产生影响，奖励可能是延迟的，在学习中可能会牺牲短期利益从而获得长期的回报。

马尔可夫性（Markov Property)

强化学习主要研究的是具有马尔可夫性的问题。

智能体未来的状态只与当前时刻的状态 $S_t$ 有关，而与过去的状态 $\{S_1,\dots,S_{t-1}\}$ 无关，那么称智能体的模型具有马尔可夫性。

$\mathbb{P}[S_{t+1}|S_t]=\mathbb{P}[S_{t+1}|S_1,\dots,S_t]$

也就是说，未来只与当前有关，与历史无关，一旦当前状态确定了，历史状态也可以丢弃了，也就是说当前状态足以决定未来状态是什么样的。

$S_{1:t}\rightarrow S_t\rightarrow S_{t+1:\infty}$

状态转移矩阵

对于一个马尔可夫状态 $s$ 和后继状态 $s^{'}$ ，状态转移概率定义为 $\mathcal{P}_{ss'}=\mathbb{P}[S_{t+1}=s'|S_t=s]$ 。

状态转移矩阵 $\mathcal{P}$ 定义从所有状态 $s$ 到所有后继状态 $s^{'}$ 的转移概率

$\mathcal{P}=\begin{bmatrix}\mathcal{P}_{11} & \ldots & \mathcal{P}_{1n} \\ \vdots & \ddots & \vdots \\ \mathcal{P}_{n1} & \ldots & \mathcal{P}_{nn} \\ \end{bmatrix}$

其中，矩阵的每行和等于1。

马尔可夫过程（Markov Process）

一个马尔可夫过程是一个无记忆的随机过程，即一组具有马尔可夫性的随机状态序列 $S_1,S_2,\dots$ 。

定义

一个马尔可夫过程（或马尔可夫链）可以用一组 $<\mathcal{S,P}>$ 表示

$\mathcal{S}$ 是（有限）状态集
$\mathcal{P}$ 是状态转移概率矩阵 $\mathcal{P}_{ss'}=\mathbb{P}[S_{t+1}=s'|S_t=s]$

马尔可夫奖励过程（Markov Reward Process）

一个马尔可夫奖励过程是一个马尔可夫链加上奖励。

定义

一个马尔可夫奖励过程由一组 $<\mathcal{S,P,R},\gamma>$ 构成

$\mathcal{S}$ 是一组有限状态集
$\mathcal{P}$ 是状态转移概率矩阵 $\mathcal{P}_{ss'}=\mathbb{P}[S_{t+1}=s'|S_t=s]$
$\mathcal{R}$ 是奖励函数， $\mathcal{R}_s=\mathbb{E}[R_{t+1}|S_t=s]$
$\gamma$ 是折扣因子， $\gamma\in[0,1]$

回报（Return）

定义

回报 $G_t$ 代表从 t 时刻往后所有的折扣奖励
$G_t=R_{t+1}+\gamma R_{t+2}+\dots=\sum_{k=0}^{\infty}\gamma^kR_{t+k+1}$

折扣因子 $\gamma \in[0,1]$ 代表未来的奖励在当前时刻贡献的价值
$k + 1$ 时刻后的奖励 $R$ 对当前回报的贡献只有 $\gamma^k R$
这种定义形式更重视近期的奖励，忽视远期的奖励
- $\gamma$ 越接近0，回报越是“目光短浅”
- $\gamma$ 越接近1，回报越是“目光长远”

大部分的马尔可夫奖励和决策过程都使用折扣因子，为什么？

如果想要调整奖励的重要性，数学上方便实现
在循环马尔可夫过程问题中能避免无穷回报

但是使用折扣因子有可能会忽视未来奖励，如果奖励代表金钱，近期的奖励会比远期的奖励产生更多的收益。自然界的人类或动物行为模式更倾向于近期奖励，有时候也会使用无折扣的马尔可夫奖励过程，例如所有事件序列都有终止状态。

价值函数与MRPs的贝尔曼方程（Bellman Equation）

价值函数 $v (s)$ 代表智能体在状态 $s$ 下的长期价值。

定义

一个马尔可夫奖励过程的状态价值函数等于从状态 s 出发的期望回报
$v(s)=\mathbb{E}[G_t|S_t=s]$

将价值函数拆分成两部分

瞬时奖励 $R_{t+1}$
后继状态的折扣价值 $\gamma v(S_{t+1})$

$\mathbb{E}[G_t|S_t=s] = \mathbb{E}[R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\dots|S_t=s]=\mathbb{E}[R_{t+1}+\gamma(R_{t+2}+\gamma R_{t+3}+\dots)|S_t=s]=\mathbb{E}[R_{t+1}+\gamma G_{t+1}|S_t=s]=\mathbb{E}[R_{t+1}+\gamma v(S_{t+1})|S_t=s]$

$v(s)=\mathbb{E}[R_{t+1}+\gamma v(S_{t+1})|S_t=s]=\mathcal{R}_s+\gamma\sum_{s'\in S}\mathcal{P}_{ss'}v(s')$

用矩阵精确地表示贝尔曼方法

$v=\mathcal{R}+\gamma\mathcal{P}v$

其中列向量 $v$ 的每一项对应一个状态

$\begin{bmatrix}v(1) \\ \vdots \\ v(n) \end{bmatrix}=\begin{bmatrix}\mathcal{R}(1) \\ \vdots \\ \mathcal{R}(n) \end{bmatrix}+\gamma \begin{bmatrix}\mathcal{P}_{11} & \ldots & \mathcal{P}_{1n} \\ \vdots & \ddots & \vdots \\ \mathcal{P}_{n1} & \ldots & \mathcal{P}_{nn} \\ \end{bmatrix}\begin{bmatrix}v(1) \\ \vdots \\ v(n)\end{bmatrix}$

贝尔曼方程是线性方程，可以直接求解：
$v=\mathcal{R}+\gamma\mathcal{P}v$
$(I-\gamma\mathcal{P})=\mathcal{R}$
$v=(I-\gamma\mathcal{P})^{-1}\mathcal{R}$

n 个状态下的计算复杂度 $O(n^3)$ 。

对于大规模的 MRPs 问题，可以使用迭代的方法，例如

动态规划
蒙特卡洛估计
时间差分学习

马尔可夫决策过程（Markov Decision Process）

马尔可夫决策过程是马尔可夫奖励过程中加上决策。问题的所有状态都具有马尔可夫性。

定义

一个马尔可夫决策过程由 $<\mathcal{S,A,P,R},\gamma>$ 组成

$\mathcal{S}$ 是有限状态集
$\mathcal{A}$ 是有限动作集
$\mathcal{P}$ 是状态转移概率矩阵
$\mathcal{P}_{ss'}^a=\mathbb{P}[S_{t+1}=s'|S_t=s,A_t=a]$
$\mathcal{R}$ 是奖励函数， $\mathcal{R}_s^a=\mathbb{E}[R_{t+1}|S_t=s,A_t=a]$
$\gamma$ 是折扣因子， $\gamma\in[0,1]$

强化学习主要元素

一个强化学习的智能体可能包括以下一个或多个元素：

策略：智能体的行为
价值函数（值函数、性能指标函数）：智能体在某一状态和/或某一动作时是好还是坏
模型：智能体对真实环境的估计

策略（Policy）

策略代表了智能体是如何行为的，是从状态到动作的映射，例如：

确定性策略： $a=\pi(s)$
随机性策略： $\pi(a|s)=\mathbb{P}[A_t=a|S_t=s]$

定义

策略 $\pi$ 是状态到动作的一种分布
$\pi(a|s)=\mathbb{P}[A_t=a|S_t=s]$

一个策略定义了一个智能体的行为。马尔可夫决策过程（MDP）问题的策略，即策略是静态的（时不变性）。

$A_t～\pi(·|S_t),\forall t > 0$

给定一个 MDP 的 $\mathcal{M}=<\mathcal{S,A,P,R},\gamma>$ 和策略 $\pi$ ，状态序列 $S_1,S_2,\dots$ 是一个马尔可夫过程 $<\mathcal{S,P}^\pi>$ ，状态和奖励序列 $S_1,R_2,S_2,\dots$ 是一个马尔可夫奖励过程 $<\mathcal{S},\mathcal{P}^\pi,\mathcal{R}^\pi,\gamma>$ ，其中
$\mathcal{P}_{ss'}^\pi=\sum_{a\in\mathcal{A}}\pi(a|s)\mathcal{P}_{ss'}^a$
$\mathcal{R}_{s}^\pi=\sum_{a\in\mathcal{A}}\pi(a|s)\mathcal{R}_{s}^a$

价值函数（Value Function）

价值函数是对未来奖励的预测，可以评估智能体在某一状态下是好还是坏，因而可以用来选择对智能体最有利的动作。
$v_\pi(s)=\mathbb{E}_\pi[R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\dots|S_t=s]$

定义

MDP的状态-价值函数 $v_\pi(s)$ 定义为从状态 s 出发，在策略 $\pi$ 作用下的期望回报
$v_\pi(s)=\mathbb{E}[G_t|S_t=s]$
动作-价值函数 $q_\pi(s,a)$ 是从状态 s 出发，首先执行动作 a，然后在策略 $\pi$ 作用下的期望回报
$q_\pi(s,a)=\mathbb{E}_\pi[G_t|S_t=s,A_t=a]$

模型（model）

当环境未知时，智能体自己辨识模型来预测环境下一时刻的状态和奖励是什么样的。 $\mathcal{P}$ 预测下一时刻的状态， $\mathcal{R}$ 预测下一时刻（瞬时）的奖励。

$\mathcal{P}_{ss'}^a=\mathbb{P}[S_{t+1}=s'|S_t=s,A_t=a]$

$\mathcal{R}_s^a=\mathbb{E}[R_{t+1}|S_t=s,A_t=a]$

贝尔曼期望方程

状态价值函数同样可以分解成瞬时奖励和后继状态的折扣价值的和

$v_\pi(s)=\mathbb{E}[R_{t+1}+\gamma v_\pi(S_{t+1})|S_t=s]$

类似地，动作价值函数分解成

$q_\pi(s,a)=\mathbb{E}_\pi [R_{t+1}+\gamma q_\pi(S_{t+1},A_{t+1})|S_t=s,A_t=a]$

所以，

$v_\pi(s)=\sum_{a\in\mathcal{A}}\pi(a|s)\big(\mathcal{R}_s^a+\gamma\sum_{s'\in\mathcal{S}}\mathcal{P}^a_{ss'}v_\pi(s')\big)$

$q_\pi(s,a)=\mathcal{R}_s^a+\gamma\sum_{s'\in\mathcal{S}}\mathcal{P}^a_{ss'}\sum_{a'\in\mathcal{A}}\pi(a'|s')q_\pi(s',a')$

贝尔曼期望方程可以在对应的马尔可夫奖励过程下表示为矩阵形式

$v_\pi=\mathcal{R}^\pi+\gamma\mathcal{P}^\pi(v_\pi)$

方程的解

$v_\pi=(I-\gamma\mathcal{P}^\pi)^{-1}\mathcal{R}^\pi$

最优化原理

最优价值函数

定义

在所有策略中价值函数最大的称之为最优状态-价值函数 $v_*(s)$
$v_*(s)=\max_\pi v_\pi(s)$
在所有策略中动作价值函数最大的称之为最优动作-价值函数 $q_*(s,a)$
$q_*(s,a)=\max_\pi q_\pi(s,a)$

最优价值函数代表了智能体在该智能体在该 MDP 问题下最好的性能，如果得到了最优值函数，那么 MDP 问题就已经求解了。

最优策略

定义一个关于策略的比较操作

$\pi\ge\pi'~\text{if}~v_\pi(s)\ge v_{\pi'}(s),\forall s$

定理

对任意马尔可夫决策过程

总是存在一个最优策略 $\pi_*$ 比其它所有策略都不差 $\pi_*\ge\pi,\forall\pi$
所有最优策略的价值函数都相等，且等于最优价值函数， $V_{\pi_*}(s)=v_*(s)$
所有最优策略的动作-价值函数都相等，且等于最优动作-价值函数， $q_{\pi_*}(s,a)=q_*(s,a)$

寻找最优策略

一个最优策略可以通过最大化 $q_*(s,a)$ 来确定

$\pi_*(a|s)=\left\{\begin{array}{rl}1&\text{if }a=\text{argmax}_{a\in\mathcal{A}}q_*(s,a)\\0&\text{otherwise}\end{array}\right.$

对任何 MDP 都存在一个确定性的最优策略，如果 $q_*(s,a)$ 已知，即可得到最优策略。

最优化原理

强化学习目标是找到一组时间序列的动作 ${A_0,A_1,\dots}$ ，使得智能体从 $S_0$ 出发得到的期望累加奖励最大化

$v^*(S_0)=\mathbb{E}[\max_{A_0,A_1,\dots}(R_1+\gamma R_2+\gamma^2 R_3+\dots)]$

$v_*$ 称为最优价值函数。

贝尔曼最优化原理

一个最优策略具有如下性质：不论初始状态和初始决策（第一步决策）如何，以第一步决策所形成的阶段和状态作为初始条件来考虑时，余下的决策对余下的问题而言也必构成最优策略。

$v_*(S_0)=\mathbb{E}[\max_{A_0,A_1,\dots}(R_1+\gamma R_2+\gamma^2 R_3+\dots)]=\max_{A_0}\mathbb{E}[R_1+\gamma\max_{A_1,A_2,\dots}(R_2+\gamma R_3+\dots)]=\max_{A_0}\mathbb{E}[R_1+\gamma\mathbb{E}[v_*(S_1)]]$

关于 $v_*$ 的贝尔曼最优方程
$v_*(s)=\max_a(\mathcal{R}_s^a+\gamma\sum_{s'\in S}\mathcal{P}_{ss'}^av_*(s'))$
关于 $q_*$ 的贝尔曼最优方程
$q_*(s,a)=\mathcal{R}_s^a+\gamma\sum_{s'\in S}\mathcal{P}_{ss'}^a \max_{a'}q_*(s',a')$
确定性的最优策略
$\pi_*(s)=\text{argmax}_{a\in\mathcal{A}}q_*(s,a)=\text{argmax}_{a\in\mathcal{A}}\mathcal{R}_s^a+\gamma\sum_{s'\in S}\mathcal{P}_{ss'}^a v_*(s')$

乾小二

关注

13
点赞
踩
55

收藏

觉得还不错? 一键收藏
0
评论
强化学习入门介绍--马尔可夫决策过程、最优化原理、贝尔曼方程

强化学习强化学习介绍与其他机器学习的不同马尔可夫决策过程马尔可夫性（Markov Property)强化学习介绍强化学习是一种优化智能体在环境中行为的一种方法。根据环境反馈的奖励，调整智能体的行为策略，提升智能体实现目标的能力。以训练狗握手为例，当狗把前爪放在训练人手中，训练人会给狗食物作为奖励，否则不给食物。经长时间训练后，狗会主动和人握手。这里，狗是智能体，训练人给的食物相当于环境反馈...
复制链接

扫一扫