第一部分表格型求解方法：第二章多臂赌博机

本文链接：https://blog.csdn.net/midnight_DJ/article/details/121330502

本文围绕多臂赌博机介绍强化学习。阐述k臂赌博机问题，分析开发与试探冲突。介绍动作 - 价值方法、增量式实现等。通过10臂测试平台比较贪心和ϵ - 贪心方法，还提及乐观初始值、梯度赌博机算法等，最后总结平衡试探和开发的方法并评估性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第一部分表格型求解方法主要介绍 简单强化学习所使用的算法的核心思想，这种问题可以找到最优价值函数和最优策略。在其他部分，将会介绍只能找到 近似解的复杂（较大规模的动作和状态空间）强化学习问题

第二章多臂赌博机

2.1 一个k臂赌博机问题

强化学习与其他机器学习方法不同的一点就在于，前者的训练信号是用来评估给定动作的好坏的，而不是通过给出正确动作范例来进行直接的指导。

多臂赌博机只有一个状态（非关联性），属于一种非关联性的评估性反馈问题，适合作为一个简化的问题来介绍强化学习，之后会之间探讨完整的强化学习问题。

k臂赌博机有k个控制杆，动作选择就是是否拉动控制杆，收益就是得到的奖金。

在k个动作中，每一个被选择时都对应一个期望收益或者平均收益，我们称为这个动作的价值。
$q_*(a)=\mathbb{E}[R_t|A_t=a]$
其中 $q_*(a)$ 代表在时间t采取a动作的价值，它等于期望收益。

我们将对动作a在时刻t时的价值估计记作 $Q_t(a)$ ，我们希望它接近 $q_*(a)$ 。

在动作空间中，你都可以估计出每一个动作的价值，如果你总是选择估值最高的那个（或那些）动作，那这个动作称为贪心动作，这个对应概念开发（exploitation），如果你选择非贪心的动作，对应概念试探(exploration)。

“开发”对于当前时刻的利益最大化是正确的作法，但是“试探”长远来看可能带来总体收益的最大化。比如，假设一个贪心动作的价值是确切知道的，而另外几个动作的估计价值与之差不多，但是有很大的不确定性。这种不确定性足够使得至少一个动作实际上会好于贪心动作，但是你不知道是哪个。如果你还有很多时刻可以用来做选择，那么对非贪心的动作进行试探并且发现哪一个动作好于贪心动作也许会更好。在试探的过程中短期内收益较低，但从长远来看收益更高，因为你在发现了更好的动作后，你可以很多次地利用它。值得一提的是，在同一次动作选择中，开发和试探是不可能同时进行的，这种情况就是我们常常提到的开发和试探之间的冲突。

在一个具体案例中，到底选择“试探”还是“开发”，依赖于我们得到的函数估计、不确定性和剩余时刻的精确数值。

2.2 动作-价值方法

将使用价值的估计来进行动作选择的方法统称为动作-价值方法。
$Q_t(a) \doteq \frac{t时刻前通过执行动作a得到的收益总和}{t时刻前执行动作a的次数}=\frac{\sum_{i=1}^{t-1}R_i \cdot \mathbb{1}_{A_i=a}}{\sum_{i=1}^{t-1}\mathbb{1}_{A_i=a}}$

其中， $\mathbb{1}_{predicate}$ 表示随机变量，当predicate为真时其值为1，反之则为0。当分母为0时，将 $Q_t(a)$ 定义为一个默认值，比如 $Q_t(a)=0$ ，当分母去西趋向无穷大，根据大数定律， $Q_t(a)$ 会收敛到 $q_*(a)$ ，我们把这种估计动作价值的方法称为采样平均方法，因为每一次估计都是对相关样本的平均。

如果要选择贪心动作：
$A_t \doteq \underset{a}{argmax}Q_t(a)$
贪心策略的一个简单替代策略是：大部分时间都表现得贪心，但偶尔（比如以一个很小的概率 $\epsilon$ ）以一个独立于动作-价值估计值的方式从所有动作中等概率随机地做出选择。正文中近乎贪心的选择规则称为 $\epsilon$ -贪心方法。

2.3 10臂测试平台

为了评估贪心方法和 $\epsilon$ -贪心方法，将它们在一系列测试问题上进行比较。k=10，动作的真实价值为 $q_*(a),a=1,...,10$ ，从一个均值为0方差为1的标准正态（高斯）分布中选择。当对应于该问题的学习方法在时刻t选择 $A_t$ 时，实际的收益 $R_t$ 则由一个均值为 $q_*(A_t)$ ，方差为1的正态分布决定。如图2.1所示：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ThmfKXiZ-1636945189241)(D:\研究僧\RL\pic\fig2_1.jpg)]

图2.2比较了两种方法。它们都采用采样平均策略来形成对动作价值的估计。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fcsCzaOy-1636945189244)(D:\研究僧\RL\pic\fig2_2.jpg)]

上部的图显示了期望的收益随着经验的增长而增长。贪心方法再最初增长得略微快一些，但是随后稳定在一个较低的水平。 $\epsilon$ -贪心方法最终表现更好，因为他们持续地试探。 $\epsilon=0.1$ 时方法试探地更多，通常更早发现最优动作，但是由于它“试探”的策略更多，它选择这个最优动作的概率永远不会超过 $91\% (\frac{9}{10}+\frac{1}{10}\times \frac{1}{10})$ ， $\epsilon=0.01$ 改善得更慢，但最终来看，它在两个测度（平均收益和最优动作概率）的表现最好。

$\epsilon$ -贪心方法相对于贪心犯法的优势是依赖于任务的。

收益函数估计噪音越多， $\epsilon$ -贪心方法比贪心方法好
问题非平稳时，即真实价值不是静态的，而是随着时间变化的， $\epsilon$ -贪心方法也更优越
即使是确定性问题，以防万一， $\epsilon$ -贪心方法也更好

课后练习

赌博机例子

k=4，记作1,2,3,4.使用 $\epsilon$ -贪心方法进行动作选择，基于采样平均的动作价值估计，初始估计 $Q_1(a)=0,\forall a$ 。假设动作及最初顺序是 $A_1=1,R_1=-1,A_2=2,R_2=1,A_3=2,R_3=-2,A_4=2,R_4=2,A_5=3,R_5=0$ 。请问哪些时刻一定发生了 $\epsilon$ 的情形，哪些可能发生了？

	1	2
$Q_1(a)$	0	0
$Q_2(A_1)$	-1	0
$Q_3(A_2)$	-1	1
$Q_4(A_3)$	-1	$\frac{-2+1}{2}=-0.5$
$Q_5(A_4)$	-1	$\frac{-2+1+2}{3}=\frac{1}{3}$

$A_1$ 可能贪心或 $\epsilon$ -贪心选取了1号控制杆， $A_2$ 可能贪心或 $\epsilon$ -贪心选择了2号控制杆， $A_3$ 贪心或 $\epsilon$ -贪心随机选择了2号控制杆， $A_4$ 如果是贪心，一定选择3或4控制杆，但是没有发生，所以一定采用了 $\epsilon$ -贪心方法， $A_5$ 如果是贪心，一定选择2控制杆（ $\frac{1}{3}>0>-1$ ），但是没有发生，所以一定发生了 $\epsilon$ 的情形。

在图2.2中，从累计收益和选择最佳动作的可能性的角度考虑，哪种方法会在长期表现最好？好多少？定量地表述你的答案。

$\epsilon=0.01$ 会更好，因为当 $t->\infty$ 时， $Q_t->q_*$ ，由于 $\epsilon=0.01$ 时选择最优动作的概率比 $\epsilon=0.1$ 时大10倍，所以累积收益也会更大。

2.4 增量式实现

计算样本均值来估测收益所需的内存和计算量会不断增长：
$Q_n=\frac{R_1+R_2+...+R_{n-1}}{n-1}$
所以设计增量式公式，以小而恒定的计算来更新平均值：
$KaTeX parse error: Can't use function '$' in math mode at position 353: …] \end{aligned}$̲$
这种实现只需要存储 $Q_n$ 和 $n$ 和公式(5)的少量计算。

将该公式的一般形式为：

新估计值<—旧估计值+步长 × [目标 - 旧估计值]

表达式[目标 - 旧估计值]是估计值的误差，目标在上面的例子就代表第n次的收益，在向目标靠近的过程中，误差逐渐减小。

值得注意的是，上式增量式方法的步长会随时间变化。处理动作a对应的第n个收益的方法用的步长是 $\frac{1}{n}$ ，步长可以写作 $\alpha$ 或者更适普地记作 $\alpha_t(a)$ 。

一个完整的使用以增量式计算的样本均值和 $\epsilon$ -贪心动作选择的赌博机问题算法的伪代码如下所示

在这里插入图片描述

其中bandit(A)接受一个动作为输入，返回一个对应的收益。

2.5 跟踪一个非平稳问题

取平均收益的方法对平稳的赌博机问题是合适的，即收益的概率分布不随着时间变化的赌博机问题。

当面对非平稳的强化学习问题，给近期的收益赋予比过去很久的收益更高的权值就是一种合理的处理方式。
$\begin{aligned} Q_{n+1} &=Q_{n}+\alpha\left[R_{n}-Q_{n}\right] \\ &=\alpha R_{n}+(1-\alpha) Q_{n} \\ &=\alpha R_{n}+(1-\alpha)\left[\alpha R_{n-1}+(1-\alpha) Q_{n-1}\right] \\ &=\alpha R_{n}+(1-\alpha) \alpha R_{n-1}+(1-\alpha)^{2} Q_{n-1} \\ &=\alpha R_{n}+(1-\alpha) \alpha R_{n-1}+(1-\alpha)^{2} \alpha R_{n-2}+\\ & \quad \quad ...+(1-\alpha)^{n-1} \alpha R_{1}+(1-\alpha)^{n} Q_{1} \\ &=(1-\alpha)^{n} Q_{1}+\sum_{i=1}^{n} \alpha(1-\alpha)^{n-i} R_{i} \end{aligned}$
式中， $\alpha \in (0,1]$ 是一个常数，这使得 $Q_{n+1}$ 是过去的收益和初始估计$Q_1$的加权平均，之所以是加权平均是因为我们可以验证权值的和是 $(1-\alpha)^n+\sum_{i=1}^n \alpha(1-\alpha)^{n-i}=1$ （展开之后依次提取公因式化简得到）。

注意，赋给收益 $R_i$ 的权值 $\alpha (1-\alpha)^{n-i}$ 依赖于它被观测到的具体时刻 $i$ 与当前时刻 $n$ 的差，即 $n - i$ 。 $1-\alpha<1$ ，因此赋予 $R_i$ 的权值随着相隔次数的增加而递减。事实上，由于 $1-\alpha$ 上的指数，权值以指数形式递减（当 $\alpha=1$ ，所有的权值都赋给最后一个收益 $R_n$ ）。正因为如此，这个方法有时也被称为指数近因加权平均。

有时候随着时刻一步步改变步长参数是很方便的。设 $\alpha_n(a)$ 表示用于处理第 $n$ 次选择动作 $a$ 后收到的收益的步长参数。当 $\alpha_n(a)=\frac{1}{n}$ 时，就是采样平均法，大数定律保证它可以收敛到真值。然而，收敛性当然不能保证对任何步长都满足。随机逼近理论中的一个著名结果给出了保证收敛概率为1所需的条件
$\sum_{n=1}^\infty \alpha_n(a) = \infty 且\sum_{n=1}^\infty \alpha_n^2(a) \lt \infty$
第一个条件是要求保证有足够大的步长，最终克服任何初始条件或随机波动。第二个条件保证最终步长变小，以保证收敛。

当 $\alpha_n(a)=\frac{1}{n}$ 时，(7)式满足，但是当步长为常数时，第二个条件无法满足，说明估计永远无法完全收敛，而是会随着最近得到的收益而变化。在非平稳学习中，这就是我们想要的。

练习题

如果步长参数 $\alpha_n$ 不是常数，写出与(6)式同样的公式。

让 $\alpha_0=1$ ，那么 $Q_{n+1}=\left(\prod_{i=1}^{n}\left(1-\alpha_{i}\right)\right) Q_{1}+\sum_{i=1}^{n} \alpha_{i} R_{i} \prod_{k=i+1}^{n}\left(1-\alpha_{k}\right)$ ，当 $\gt y 且 \prod_{i=x}^y f(i) = 1$

设计并且实施一项实验来证实采用采样平均方法去解决非平稳问题的困难。使用一个10臂测试平台的修改版本，其中所有的 $q_*(a)$ 初始时相等，然后进行随机游走（比如说在每一步所有的 $q_*(a)$ 都加上一个均值为0标准差为0.01的正态分布的增量）。为其中一个使用采样平均和增量式计算的动作-价值方法，为另外一个使用常数步长参数 $\alpha=0.1$ 的动作-价值方法，并作出如图2.2所示的图示。采用 $\epsilon=0.1$ ，并且取很长的时间（比如10 000步）。

借用了GitHub上本书的官方代码求解，但是结果与书中观点相反，采样平均的方法反而有更高的平均收益和最优动作：

我在GitHub上提出了一个issue，希望之后能有人回答，或者指出我的错误。

2.6 乐观初始值

目前为止我们讨论的所有方法都在一定程度上依赖于初始动作值 $Q_1(a)$ 的选择。从统计学角度来说，这些方法（由于初始估计值）是有偏的。对于采样平均法来说，当所有动作都至少被选择一次时，偏差就会消失。但是对于步长为 $\alpha$ 的情况，如公式（13）给出的偏差会随时间减小，但不会消失。如果不将它们全部设置为0，则初始值实际上变成了必须有用户选择的参数集。

如果把初始值0换成+5，由于 $q_*(a)$ 是按照均值为0，方差为1的正态分布产生的，所以+5的初始值是一个过度乐观的初始值。但是这种估计会使得动作-价值方法去试探，刚开始，无论哪一种方法被选取，收益都比最开始的估计值小，因此学习期会转向探索其他动作，所有动作在估计值收敛前都被尝试了好几次，即使每一次都按照贪心法选择动作，系统也会进行大量的试探。

图2.3展示了在一个10臂测试平台上设定初始值 $Q_1(a)=+5$ ，并采用贪心算法的结果。为了比较同时展示了 $\epsilon$ 贪心算法使用初始值 $Q_1(a)=0$ 的结果。刚开始乐观初始化方法表现得比较糟糕，因为它需要试探更多次，但是最终随着时间的推移，试探的次数减少，它的表现也变得更好，我们把这种鼓励试探的技术叫做乐观初始值。

在这里插入图片描述

乐观初始值是一个在平稳问题中非常有效的技巧，但它不太适合非平稳问题，因为它试探的驱动力天生是暂时的，只在开始时刻出现一次。

练习

神秘的峰值 图2.3中的结果应该是相当可靠的，因为它们是2000个独立随机选择的10臂赌博机任务的平均值。那么为什么乐观估计初始化方法在曲线的早期会出现震荡和峰值呢？

就是说，刚开始在探索，在经过10次探索找到最优动作后变得贪婪（线条急剧上升），然后由于此时的奖励和最开始的估计值没有很大改变，很可能最优动作又变得不是最优动作了，所以又开始探索（线条急剧下降）。

无偏恒定步长技巧 在本章中的大多数案例中，我们使用采样平均来估计动作的价值，这是因为采样平均不会像恒定步长一样产生偏差（ $Q_{n+1}=(1-\alpha)^{n} Q_{1}+\sum_{i=1}^{n} \alpha(1-\alpha)^{n-i} R_{i}$ 有来自于 $Q_1$ 的偏差）。然而，采样平均并不是完全令人满意的解决方案。在非平稳的问题中，它可能表现得很差。我们是否有办法既能利用恒定步长方法在非平稳过程中的优势，又能有效避免它的偏差呢？一种可行的方法是利用如下的步长来处理某个特定动作的第n个收益

$\beta_{t} \doteq \alpha / \bar{o}_{t}，$

其中， $\alpha>0$ 是一个传统的恒定步长， $\bar{o}_{t}$ 是一个从零时刻开始计算的修正系数
$\bar{o}_{n} \doteq \bar{o}_{n-1} + \alpha(1-\bar{o}_{n-1})，对n \geq0，满足\bar{o}_{0} \doteq 0.$
通过与（6）式类似的分析方法，试证明 $Q_n$ 是一个对初始估计值无偏的指数近因加权平均。（可是这时已经不是恒定步长了吧？）

说明无偏：

因为 $\bar{o}_{1}=\alpha$ ，所以 $\beta_1=1$ ，由2.5第一小题的结果( $Q_{n+1}=\left(\prod_{i=1}^{n}\left(1-\alpha_{i}\right)\right) Q_{1}+\sum_{i=1}^{n} \alpha_{i} R_{i} \prod_{k=i+1}^{n}\left(1-\alpha_{k}\right)$ )，用 $\beta_i$ 代替 $\alpha_i$ ，可知 $Q_n$ 不依赖于 $Q_1$

说明加权平均：

余下部分表示为：
$w_{i}=\beta_{i} \prod_{k=i+1}^{n}\left(1-\beta_{k}\right)$
固定n，增加i，观察到：
$\frac{w_{i+1}}{w_{i}}=\frac{\beta_{i+1}}{\beta_{i}\left(1-\beta_{i+1}\right)}=\frac{1}{1-\alpha}>1$
所以越久远，权值却低。我们假定了 $\alpha<1$ ，若 $\alpha=1$ ,则 $\forall t,\beta_t=1$

我化简(11)式最终等于 $\frac{\alpha}{1-\alpha}$ ，不知道哪里出错了，暂时把过程放在这儿：
$\begin{aligned} \frac{w_{i+1}}{w_{i}}&=\frac{\beta_{i+1}}{\beta_{i}\left(1-\beta_{i+1}\right)} \\ &=\frac{ \alpha / \bar{o}_{i+1}}{( \alpha / \bar{o}_{i})(1- \alpha / \bar{o}_{i+1})} \\ &=\frac{1/ \bar{o}_{i+1}}{( 1 / \bar{o}_{i})(1/\alpha- 1 / \bar{o}_{i+1})} \\ &= \frac{ \alpha\bar{o}_{i}}{\bar{o}_{i+1}-\alpha} \\ &= \frac{ \alpha\bar{o}_{i}}{\bar{o}_{i} + \alpha(1-\bar{o}_{i})-\alpha} \\ &= \frac{\alpha}{1-\alpha} \end{aligned}$

2.7 基于置信度上界的动作选择

动作-价值估计总会存在不确定性，所以试探是必须的。虽然 $\epsilon-贪心动作$ 会尝试选择非贪心的动作，但是这是一种盲目的选择，因为它不大会去选择接近贪心或者不确定性特别大的动作。如果可以考虑它们的潜力来选择，也就是考虑他们的估计与最大值的距离，以及这些估计的不确定性，从长远来看，可以带来更好的收益。
$A_{t} \doteq \underset{a}{\operatorname{argmax}}\left[Q_{t}(a)+c \sqrt{\frac{\ln t}{N_{t}(a)}}\right]$
照上面这个公式选择动作，ln $t$ 表示t的自然对数， $N_t(a)$ 表示在时刻t之前动作a被选择的次数。c是一个大于0的数，它控制着试探的程度。如果 $N_t(a)=0$ ，则a就被认为是满足最大化条件的动作。

这种基于置信度上界（upper confidence bound,UCB）的动作选择的思想是，平方根项是对a动作值估计的不确定性或方差的度量。因此，最大值的大小是动作a的可能真实值的上限，参数c决定了置信水平。每次选a时，不确定性可能会减小；由于 $N_t(a)$ 出现在不确定项的分母上，因此随着 $N_t(a)$ 的增加，这一项就减小了。另一方面，每次选择a之外的动作时，在分子上的t增大，而 $N_t(a)$ 却没有变化，所以不确定性增加了。自然对数的使用意味着随着时间的推移，增加会变得越来越小，但它是无限的。所有动作最终都将被选中，但是随着时间的流逝，具有较低价值估值的动作或者已经被选择了更多次的动作被选择的频率较低。

在这里插入图片描述

图2.4展示了在10臂测试平台上采用UCB算法的结果。如图所示，UCB往往会变现良好。但是和 $\epsilon$ -贪心算法相比，它更难推广到本书的其他章节研究的一些更一般的强化学习问题。一个困难是在处理非平稳问题时，她主要比2.5节中介绍的方法更复杂的方法。另一个难题是要处理打的状态空间，特别是函数近似问题。

练习

UCB尖峰 在图2.4中，UCB算法的表现在第11步的时候有一个非常明显的尖峰。为什么会产生这个尖峰呢？请注意，你必须同时解释为什么收益在第11步时会增加，以及为什么在后续的若干步中会减少。（提示：如果c=1，那么这个尖峰就不会那么突出了）

这一节主要讲了一个变体的动作选择公式，以前我们只考虑了随机选择来增加试探，现在我们的试探更“有理有据”了，我们增加了一个项，它由置信水平乘以一个不确定性的度量（方差的度量）组成（我们更倾向于选择估值较大，且有较大不确定性的动作）。在前11步，智能体识别到了最大值对应的动作，会倾向于贪婪地选择这个动作，所以收益会骤增，但是随着 $N_t(a)$ 增大，不确定性减小，而其他和该最优动作的估计值相差不大的动作的不确定性会增大，以至于大过最优动作，所以智能体再次选择“非最优动作”

官方答案：

在前10个步骤中，代理循环执行所有的动作，因为当 $N_t(a) = 0$ 时，a被认为是最大的。在第11步，代理通常会贪婪地选择。代理将继续贪婪地选择，直到ln(t)超过 $N_t(a)$ ，在这种情况下，代理将开始再次探索，从而减少奖励。

注意，在长期运行中， $N_t = O(t)$ 并且 $l n (t) / t \to 1$ 。所以这个智能体是渐近贪婪的。

2.8 梯度赌博机算法

目前为止，我们通过估计值来选择动作，在本节中，我们介绍通过基于偏好函数 $H_t(a)$ 来选择动作。这里的偏好是指动作之间的相对偏好。按照如下softmax分布（吉布斯或玻尔兹曼分布）
$Pr\{A_t=a\} \doteq \frac{e^{H_t(a)}}{\sum_{b}^k e^{H_t(b)}} \doteq \pi_t(a)$
其中， $\pi_t(a)$ 是一个新的且重要的定义，用来表示动作a在时刻t被选择的概率。所有偏好函数的初始值都是一样的（例如， $H_1(a)=0, \forall a$ ），所以每个动作被选择的概率是相同的。

练习

证明在两种动作的情况下，softmax分布与通常在统计学和人工神经网络中使用的logistic或sigmoid函数给出的结果相同。

官方答案

令0和1分别代表两个动作，现在有
$Pr\{A_t=a\} \doteq \frac{e^{H_t(1)}}{e^{H_t(1)+e^{H_t(0)}}} =\frac{1}{1+e^{-x}}$
$x=H_t(1)-H_t(0)$ ，表示动作1相对于动作0的相对偏好。

基于随机梯度上升的思想，本文提出了一种自然学习算法。在每个步骤，选择动作 $A_t$ 并获得收益 $R_t$ 之后，偏好函数将会按如下方式更新
$H_{t+1}(A_t) \doteq H_{t}(A_t) + \alpha (R_t-\bar{R_t})(1-\pi_t(A_t)), 以及 \\ H_{t+1}(a) \doteq H_{t}(a) + \alpha (R_t-\bar{R_t})\pi_t(a), 对所有a \not= A_t$
其中， $\alpha$ 是一个大于0的数，表示步长。 $\bar{R_t} \in \mathbb{R}$ 是在时刻 $t$ 内所有收益的平均值，可以按2.4节所述逐步计算（若是非平稳问题，则参照2.5节）。 $\bar{R_t}$ 项作为比较收益的一个基准项。如果收益高于它，那么在未来选择动作 $A_t$ 的概率就会增加，反之概率就会降低。未选择的动作被选择的概率上升。

在这里插入图片描述

图2.5 含收益基准项与不含收益基准项的梯度赌博机算法在10臂测试平台上的平均表现，其中我们设定 $q_*(a)$ 接近于+4而不是0

图2.5展示了在一个10臂测试平台问题的变体上采用梯度赌博机算法的结果，在这个问题中，它们真实的期望收益是按照平均值为+4而不是0（方差与之前相同）的正态分布来选择的。所有收益的这种变化对剃度赌博机算法没有任何影响，因为收益基准项让它可以马上适应新的收益水平。如果没有基准项（即把公式（16）中的 $\bar{R_t}$ 设为常数0），那么性能将显著降低，如图所示：

通过随机梯度上升实现梯度赌博机算法

这部分是对（16）式的证明，比较难理解，可以跳过。

通过将梯度赌博机算法理解为梯度上升的随机近似，我们可以深入了解这一算法的本质。在精确的梯度上升算法中，每一个动作的偏好函数 $H_t(a)$ 与增量对性能的影响成正比
$H_{t+1}(a) \doteq H_t(a) + \alpha \frac{\partial \mathbb{E}[R_t]}{\partial H_t(a)}$
在这里性能的衡量指标定义为总体的期望收益
$\mathbb{E}[R_t]=\sum_x \pi_t(x) q_*(x)$
而增量产生的影响就是上述性能衡量指标对动作偏好的偏导数。当然，我们不可能真的实现精确的梯度上升，因为真实的 $q_*(x)$ 是不知道的。但是事实上，前面的更新公式(16)与公式(17)采用期望价值时是等价的，即公式（16）是随机梯度上升方法的一个实例。岁这个关系的证明只需要用初等的微积分推导几步。首先，我们仔细分析一下精确的性能梯度的定义
$\begin{aligned} \frac{\partial \mathbb{E}\left[R_{t}\right]}{\partial H_{t}(a)} &=\frac{\partial}{\partial H_{t}(a)}\left[\sum_{x} \pi_{t}(x) q_{*}(x)\right] \\ &=\sum_{x} q_{*}(x) \frac{\partial \pi_{t}(x)}{\partial H_{t}(a)} \\ &=\sum_{x}\left(q_{*}(x)-B_{t}\right) \frac{\partial \pi_{t}(x)}{\partial H_{t}(a)} \end{aligned}$
其中 $B_t$ 被称为基准项，可以是不依赖于 $x$ 的标量。我们可以把它加进来，因为所有动作的梯度加起来为0， $\sum_x \frac{\partial \pi_t(x)}{\partial H_t(a)}=0$ 。即随着 $H_t(a)$ 的变化，一些动作的概率会增加或者减少，但是这些变化的总和为0，因为概率之和必须是1。然后我们将求和公式中的每项都乘以 $\pi_t(x)/\pi_t(x)$ ，等式保持不变
$\frac{\partial \mathbb{E}\left[R_{t}\right]}{\partial H_{t}(a)}=\sum_{x} \pi_{t}(x)\left(q_{*}(x)-B_{t}\right) \frac{\partial \pi_{t}(x)}{\partial H_{t}(a)} / \pi_{t}(x)$
注意，上面的公式其实是一个“求期望”的式子：对随机变量 $A_t$ 所有可能的取值 $x$ 进行函数求和，然后乘以对应取值的概率。可以将其简写为期望形式
$\begin{aligned} &=\mathbb{E}\left[\left(q_{*}\left(A_{t}\right)-B_{t}\right) \frac{\partial \pi_{t}\left(A_{t}\right)}{\partial H_{t}(a)} / \pi_{t}\left(A_{t}\right)\right] \\ &=\mathbb{E}\left[\left(R_{t}-\bar{R}_{t}\right) \frac{\partial \pi_{t}\left(A_{t}\right)}{\partial H_{t}(a)} / \pi_{t}\left(A_{t}\right)\right] \end{aligned}$
在这里我们选择 $B_t=\bar{R_t}$ ，并且将 ${R_t}$ 用 $q_*(A_t)$ 代替。这个选择是可行的，因为 $\mathbb{E}[R_t|A_t]=q_*(A_t)$ ，而且 $R_t$ （给定 $A_t$ ）与任何其他东西都不相关。很快我们就可以确定 $\frac{\partial \pi_{t}(x)}{\partial H_{t}(a)}=\pi_{t}(x)\left(\mathbb{1}_{a=x}-\pi_{t}(a)\right)$ ， $\mathbb{1}_{a=x}$ 表示如果a=x就取1，否则取0。假设现在我们有
$\begin{aligned} &=\mathbb{E}\left[\left(R_{t}-\bar{R}_{t}\right) \pi_{t}\left(A_{t}\right)\left(\mathbb{1}_{a=A_{t}}-\pi_{t}(a)\right) / \pi_{t}\left(A_{t}\right)\right] \\ &=\mathbb{E}\left[\left(R_{t}-\bar{R}_{t}\right)\left(\mathbb{1}_{a=A_{t}}-\pi_{t}(a)\right)\right] \end{aligned}$
回想一下，我们的计划是把性能指标的梯度写为某个东西的期望，这样我们就可以在每个时刻进行采样（就像我们刚刚做的那样），然后再进行与采样样本成比例地更新。将公式(17)中的性能指标的梯度用一个单独样本的期望值代替，可以得到
$H_{t+1}(a)=H_{t}(a)+\alpha\left(R_{t}-\bar{R}_{t}\right)\left(\mathbb{1}_{a=A_{t}}-\pi_{t}(a)\right), \quad \text { 对所有 } a,$
你会发现这和我们在公式(16)中给出的原始算法是一致的。现在我们只需要证明我们的假设 $\frac{\partial \pi_{t}(x)}{\partial H_{t}(a)}=\pi_{t}(x)\left(\mathbb{1}_{a=x}-\pi_{t}(a)\right)$ 就可以了。回想一下两个函数的商的导数推导公式：
$\frac{\partial}{\partial x}\left[\frac{f(x)}{g(x)}\right]=\frac{\frac{\partial f(x)}{\partial x} g(x)-f(x) \frac{\partial g(x)}{\partial x}}{g(x)^{2}}$
使用这个公式我们可以得到
$\begin{aligned} \frac{\partial \pi_{t}(x)}{\partial H_{t}(a)} &=\frac{\partial}{\partial H_{t}(a)} \pi_{t}(x) \\ &=\frac{\partial}{\partial H_{t}(a)}\left[\frac{e^{H_{t}(x)}}{\sum_{y=1}^{k} e^{H_{t}(y)}}\right] \\ &=\frac{\frac{\partial e^{H_{t}(x)}}{\partial H_{t}(a)} \sum_{y=1}^{k} e^{H_{t}(y)}-e^{H_{t}(x)} \frac{\partial \sum_{y=1}^{k} e^{H_{t}(y)}}{\partial H_{t}(a)}}{\left(\sum_{y=1}^{k} e^{H_{t}(y)}\right)^{2}} \space \space \space \space \space \space (商的求导法则)\\ &=\frac{\mathbb{1}_{a=x} e^{H_{t}(x)} \sum_{y=1}^{k} e^{H_{t}(y)}-e^{H_{t}(x)} e^{H_{t}(a)}}{\left(\sum_{y=1}^{k} e^{H_{t}(y)}\right)^{2}} \space \space \space \space \space \space (因为 \frac{\partial e^{x}}{\partial x}=e^{x} ) \\ &=\frac{\mathbb{1}_{a=x} e^{H_{t}(x)}}{\sum_{y=1}^{k} e^{H_{t}(y)}}-\frac{e^{H_{t}(x)} e^{H_{t}(a)}}{\left(\sum_{y=1}^{k} e^{H_{t}(y)}\right)^{2}} \\ &=\mathbb{1}_{a=x} \pi_{t}(x)-\pi_{t}(x) \pi_{t}(a) \\ &=\pi_{t}(x)\left(\mathbb{1}_{a=x}-\pi_{t}(a)\right) \space \space \space \space \space \space Q.E.D \end{aligned}$
我们已经证明了梯度赌博算法的期望更新与期望收益的梯度是相等的，因此该算法是随机梯度上升算法的一种。这就保证了算法具有很强的收敛性。

注意，对于收益基准项，除了要求它不依赖于所选的动作之外，不需要其他任何的假设。例如，我们可以将其设置为0或者1000，算法仍然是随机梯度上升算法的一个特例。基准项的选择不影响算法的预期更新，但它确实会影响更新值的方差，从而影响收敛速度（如图2.5所示）。采用收益的平均值作为基准项可能不是最好的，但它很简单，并且在实践中很有效。

2.9 关联搜索（上下文相关的赌博机）

本章到此为止只考虑了非关联的任务，对它们来说，没有必要将不同的动作与不同的情境联系起来。在这些任务中，当任务是平稳的时候，学习器会试图寻找一个最佳的动作；当任务是非平稳的时候，最佳动作会随着时间的变化而变化，此时它会试着去追踪最佳动作。然而，在一般的强化学习任务中，往往有不只一种情境，他们的目标是学习一种策略：一个从特定情境到最优动作的映射。为了进行一般性问题分析，下面我们简要地探讨从非关联任务推广到关联任务的最简单的方法。

举个例子，假设有一系列不同的k臂赌博机任务，每一步你都要随机地面对其中的一个。因此，赌博任务在每一步都是随机变化的。从观察者的角度来看，这是一个单一的、非平稳的k臂赌博机任务，其真正的动作价值是每步随机变化的。你可以尝试使用本章中描述的处理非平稳情况的方法，但是除非真正的动作价值的改变是非常缓慢的，否则这些方法不会有很好的效果。现在假设，当你遇到某一个k臂赌博机任务时，你会得到关于这个任务的编号的明显线索（但不是它的动作价值）。也许你面对的是一个真正的老虎机，它的外观颜色与它的动作价值集合一一对应，动作价值集合改变的时候，外观颜色也会改变。那么现在你可以学习一些任务相关的操作策略，例如，用你所看到的颜色作为信号，把每个任务和该任务下最优的动作直接关联起来，比如，如果为红色，则选择1号臂；如果为绿色，则选择2号臂。有了这种任务相关的策略，在知道任务编号信息时，你通常要比不知道任务编号信息时做得更好。

这是一个关联搜索任务的例子，因为它既设计采用试错学习去搜索最优的动作，又将这些动作与它们表现最优时的情境关联在一起。关联搜索任务现在通常在文献中被称为上下文相关的赌博机。关联搜索任务介于k臂赌博机问题和完整强化学习问题之间。它与完整强化学习问题的相似点是，它需要学习一种策略。但它又与k臂赌博机问题相似，体现在每个动作只影响即时收益。如果允许动作可以影响下一时刻的情境和收益，那么这就是完整的强化学习问题。

练习

假设你现在正面对着一个2臂赌博机任务，而它的真实动作价值是随时间变化的。特别地，假设对任意的时间，动作1和2的真实价值有50%的概率是0.1和0.2（情况A），50%的概率是0.9和0.8（情况B）。如果在每一步时你无法确认面对的是哪种情况，那么这时最优的期望成功值是多少？你如何才能得到它？现在假设每一步你被告知了情况是A还是B（但你仍不知道真实价值，只能够区分是不同情况）。这就是一个关联搜索的任务。对这个任务，最优的期望成功值又是多少？你应该采取什么样的策略才能达到最优？

①无法确认情况

动作1： $0.5 \times 0.1+0.5 \times 0.9=0.5$