（《机器学习》完整版系列）第16章强化学习——16.1 任务与奖赏（从MDP出发）

人工干智能

已于 2023-03-31 11:18:33 修改

阅读量250

点赞数

分类专栏：周志华【西瓜书】辅导《机器学习》文章标签：算法机器学习人工智能

于 2023-03-26 09:21:15 首次发布

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129775668

版权

周志华【西瓜书】辅导同时被 2 个专栏收录

143 篇文章 34 订阅

订阅专栏

《机器学习》

143 篇文章 5 订阅

订阅专栏

用一句话来理解强化学习，就是通过让机器获得奖赏而“强化”某些有利偏好，从而引导机器完成任务。
注：奖赏也可能是负数，如，直升机（关闭引擎）着陆任务，坠毁则为绝对值很大的负数；安全着陆则为正数，其大小取决于着陆的精度和平稳程度等。

在马尔可夫决策过程中，“两阶段模型”是笔者独创的模型图，非常有利于教与学。
定义了γ折扣累积奖赏与T步累积奖赏

任务与奖赏

【西瓜书图16.1】的强化学习示意图描述了机器与环境的互动，强化学习任务对应于四元组： $E=\langle X,A,P,R\rangle$ ，
其中，转移矩阵 $P:X\times A\times X\mapsto \mathbb{R}$ ，奖赏函数 $R:X\times A\times X\mapsto \mathbb{R}$ 或 $R:X\times X\mapsto \mathbb{R}$

如果具有马尔可夫性（即下一步只与当前步相关，而与历史无关），则通常采用马尔可夫决策过程（MDP），马尔可夫决策过程指下述情况2：

1、确定性转移，如图 16.1 所示。
图 16.1 确定性转移

图 16.1 确定性转移

即在当前状态 $x_i$ 下采取行动 $a$ ，确定性地转移到 $x_j$ ，奖赏 $r=R(x_i,a,x_j)$ ，当奖赏只与状态转移有关时，则 $r=R(x_i,x_j)$ 。

2、概率性转移，如图 16.2 所示。
图 16.2 概率性转移

图 16.2 概率性转移

即在当前状态 $x_i$ 下采取行动 $a$ ，不一定转移到 $x_j$ ，而是依概率 $p$ 转移到 $x_j$ ，其余事项与确定性转移相同。

马尔可夫决策过程（MDP）中，状态 $x_i$ 转移到 $x_j$ 实际上经历了两个阶段：

(i) 行动决策：若依当前状态 $x_i$ 就可以确定行动 $a$ ，则称为确定性策略，即策略 $\pi :X \mapsto A$ ，若策略中具有随机因素，则为随机性策略，需要用概率表示 $\pi( x ,a)$ ，即 $\pi :X\times A \mapsto \mathbb{R}$ ，并且有 $\sum_{a}\pi( x ,a)=1$ 。确定性策略可视为随机性策略的特例：取该动作 $a$ 的概率为1，其余动作的概率为0.

(ii) 行动结果：采取行动后，结果状态具有某种随机性，即有条件概率 $P(x_j|x_i,a_k)$ 。

这两阶段表示为图 16.3 。
注：分拆为“两阶段模型”是笔者独创的模型图，非常有利于教学，在此模型下，笔者通常将 $R^a_{x\to x'}$ 记为 $R_{(x,a)\to x'}$ ，另外，还可以引入行动成本： $C_{x\to a}$ （在状态 $x$ 下执行行动 $a$ 所花费的成本），本书不作讨论。

图 16.3 转移的两阶段

读者可以用图 16.3 ，改造【西瓜书图16.2】。

从时间角度来看奖赏，就有一个“折现”问题。

我们先看看生活中的情况：设年利率为 $r=10\%$ ，那么，现在的100元钱存入银行，一年后即为 $100(1+10\%)$ ，5年后即为 $100(1+10\%)^5$ ，等等。一个反向问题是：5年后（第6年初）的100元钱，折算到现在（折现）应为多少？设为 $x$ ，则有方程
$\begin{align*} & x(1+10\%)^5=100\notag \\ \text{即： } & x=100(1+10\%)^{-5}=100\left[\frac{1}{1+10\%}\right]^5 \end{align*}$
其中， $\left[\frac{1}{1+10\%}\right]$ 即为折现率（或称折扣），记为 $\gamma$ ，它与利率 $r$ 相对应。将上述正反两个方向的情形放在一起，则有图 16.4 ，其中，折现率 $\gamma$ 与利率 $r$ 的关系为
$\begin{align} \gamma=\frac{1}{1+r} \tag{16.1} \end{align}$

图 16.4 时间效应

将马尔可夫决策过程中的“步”（即图 16.3 中的两阶段）对比到图 16.4 中的“年”，即：设第 $t + 1$ 步获得的奖赏值为 $r_{t+1}$ ，步折扣率为 $\gamma$ ，则第 $t + 1$ 步的奖赏折现为 $\gamma ^t r_{t+1}$ 。无限步的累计奖赏为 $\sum_{t=0}^\infty \gamma ^t r_{t+1}$ ，由于 $r_{t+1}$ 为随机变量，故可取期望（将其消去，形成均值）
$\begin{align} \mathop{\mathbb{E} }\limits_{t:0\to \infty}\sum_{t=0}^\infty \gamma ^t r_{t+1} \tag{16.2} \end{align}$
式(16.2)称为“ $\gamma$ 折扣累积奖赏”。

只考虑有限步（ $T$ 步）时，有
$\begin{align} \mathop{\mathbb{E} }\limits_{t:0\to T}\sum_{t=1}^T \gamma ^t r_{t} \tag{16.3} \end{align}$
式(16.3)称为“ $\gamma$ 折扣 $T$ 步累积奖赏”。

当不考虑折扣率（或不知折扣率）时，式(16.3)中以 $\frac{1}{T}$ 取代 $\gamma ^t$ ，也即采取取“步平均奖赏”的方式
$\begin{align} \mathop{\mathbb{E} }\limits_{t:1\to T}\frac{1}{T}\sum_{t=1}^T r_{t} \tag{16.4} \end{align}$
式(16.4)称为“ $T$ 步累积奖赏”（虽然叫“累积”，但实际上是累积奖赏平均到步，即“步均奖”）。