多臂老虎机导论(二)Stochastic Bandits

最新推荐文章于 2024-04-14 12:54:03 发布

小小何先生

最新推荐文章于 2024-04-14 12:54:03 发布

阅读量1.1k

点赞数 7

分类专栏： RL进阶原理

RL进阶原理专栏收录该内容

18 篇文章 39 订阅

订阅专栏

文章目录

问题描述

问题描述如下：

Stochastic Bandits

算法的目标是最大化累计奖励，基于三个假设:

奖励的设定遵循bandit feedback。也就是说算法只能观测到所选择动作的奖励。
对于每个动作 $a$ ，都有一个奖励分布 $\mathcal{D}_{a}$ 与之对应，每次这个动作 $a$ 被选中，反馈的奖励将会从这个分布中进行采样，并返回给算法。
奖励有界 $[0, 1]$ 。

往往在实际过程中更多考虑奖励均值向量(mean reward vector) $\mu \in [0,1]^{K}$ ，其中 $\mu(a)=\mathbb{E}\left[\mathcal{D}_{a}\right]$ 。当然最简单的就是伯努利分布(Bernoulli distribution)，或者称之为0-1分布。

所有的arms集合定义为 $\mathcal{A}$ ，最优均值奖励定义为： $\mu^{*}:=\max _{a \in \mathcal{A}} \mu(a)$ 。任意一个动作均值奖励与最好的动作均值奖励的差表示为： $\Delta(a):=\mu^{*}-\mu(a)$ 。

悔憾值(Regret)：可用于衡量算法表现好坏的一个指标。就是用假设能拿到的最多的累计奖励减去已经拿到的累计奖励。定义为如下形式：

$R(T)=\mu^{*} \cdot T-\sum_{t=1}^{T} \mu\left(a_{t}\right)$

被称作在 $T$ 回合(round)的悔憾值。由于动作 $a_{t}$ 经常会变，是个随机变量，因此 $R (T)$ 也是个随机变量，我们通常考虑expected regret $\mathbb{E}[R(T)]$ 。

主要考虑因素

备注：术语：由于悔憾值的定义值整个回合(sum all rounds)，所以有时我们也将其称之为cumulative regret。有时为了区别 $R (T)$ 和 $\mathbb{E}[R(T)]$ ，分别将其称为realized regret和expected regret。文献中 $R (T)$ 的值有时候也被称为pseudo-regret。

Uniform exploration

那我们如何来求解上述的这样一个问题呢？一种简单地办法就是先随机选择，之后依据随机选则得到的结果确定哪一个arms具有较高的奖励分布，通常也将这种算法称之为Explore-first算法。

定义每个动作 $a$ 的平均奖励为 $\bar{\mu}(a)$ ，期望平均奖励能够尽可能接近真实的期望奖励(true expected rewards)。也就是 $|\bar{\mu}(a)-\mu(a)|$ 的值尽可能小。定义置信半径(confidence radius) $r(a)=\sqrt{\frac{2logT}{N}}$ (T表示the time horizon)，使用霍夫丁不等式Hoeffding inequality可以得到：

$\operatorname{Pr}\{|\bar{\mu}(a)-\mu(a)| \leq r(a)\} \geq 1-\frac{2}{T^{4}}$

因此可以看出来，奖励平均与真实期望偏离会比较小。上述公式可直接由下面不等式推导得到：

霍夫丁不等式（英语：Hoeffding’s inequality）适用于有界的随机变量。设有两两独立的一系列随机变量 $X_{1},\dots ,X_{n}\!$ 。假设对所有的 $1\leq i\leq n$ ， $X_{i}} X_{i$ 都是几乎有界的变量，即满足： $\mathbb {P} (X_{i}\in [a_{i},b_{i}])=1.\!$ 。

那么这 $n$ 个随机变量的经验期望：

${\overline {X}}={\frac {X_{1}+\cdots +X_{n}}{n}}$

满足以下的不等式：

$\mathbb {P} ({\overline {X}}-\mathbb {E} [{\overline {X}}]\geq t)\leq \exp \left(-{\frac {2t^{2}n^{2}}{\sum _{i=1}^{n}(b_{i}-a_{i})^{2}}}\right),\!$

$\mathbb {P} (|{\overline {X}}-\mathbb {E} [{\overline {X}}]|\geq t)\leq 2\exp \left(-{\frac {2t^{2}n^{2}}{\sum _{i=1}^{n}(b_{i}-a_{i})^{2}}}\right),\!$

其证明可参考链接如下：http://web.eecs.umich.edu/~cscott/past_courses/eecs598w14/notes/03_hoeffding.pdf

定义clean event，(我的理解是： $T^{4}$ 比较大，上述概率接近于1)。

Uniform exploration的Bound (k=2)

假定一种情况 $K = 2$ arms，考虑clean event的情况，best arm是 $a^{*}$ ，如果算法选择了其它 arm $\neq a^{*}$ ，那一定是因为平均奖励比 $a^{*}$ 要更好，或者说 $\bar{u}(a) > \bar{\mu}(a^{*})$ 。由于是clean event，所以有：

$\mu(a)+r(a) \geq \bar{\mu}(a)>\bar{\mu}\left(a^{*}\right) \geq \mu\left(a^{*}\right)-r\left(a^{*}\right)$

重新整理一下，可得：

$\mu\left(a^{*}\right)-\mu(a) \leq r(a)+r\left(a^{*}\right)=O(\sqrt{\frac{\log T}{N}})$

因此如果每个回合选择利用(exploitation)，最多会有 $O(\sqrt{\frac{\log T}{N}})$ 级别的后悔程度，选择探索(exploration)的话，最大后悔程度为1。因此对于两个arm的情况，对于每个arm来说，可以将其分为两部分， $N$ 步的exploration和 $T - 2 N$ 步的exploitation。因此其regret的upper bound可表示为：

$\begin{aligned} R(T) & \leq N+O(\sqrt{\frac{\log T}{N}} \times(T-2 N)) \\ & \leq N+O(\sqrt{\frac{\log T}{N}} \times T) \end{aligned}$

因此我们可以改变 $N$ 使得上述公式右端项尽可能小，这样regret的上界也就会随之变小。那如何来求极值呢？发现一项单调递增，一项单调递减，令其两项相等即可得到 $N = T^{2 / 3}(\log T)^{1 / 3}$ ( $N$ 大概要取到 $T^{2/3}$ ，耗时较大)。有：

$\leq O\left(T^{2 / 3}(\log T)^{1 / 3}\right)$

为了证明理论的完整性，我们现在考虑一下bad event的情况，其发生概率( $1/T^{4}$ )，因此可以忽略不记，如下所示：

$\begin{aligned} \mathbb{E}[R(T)] &=\mathbb{E}[R(T) | \text { clean event }] \times \operatorname{Pr}[\text { clean event }]+\mathbb{E}[R(T) | \text { bad event }] \times \operatorname{Pr}[\text { bad event }] \\ & \leq \mathbb{E}[R(T) | \text { clean event }]+T \times O\left(T^{-4}\right) \\ & \leq O\left(\sqrt{\log T} \times T^{2 / 3}\right) \end{aligned}$

Uniform exploration的Bound (K>2)

更进一步，证明 $K > 2$ 的情况，现在的upper-bounded如下所示： $\begin{aligned} R(T) \leq NK+O(\sqrt{\frac{\log T}{N}} \times T) \end{aligned}$ 。同理计算此时 $N = (T/K)^{2 / 3}O(\log T)^{1 / 3}$ 。

Theorem 1.3. Explore-first achieves regret $\mathbb{E}[R(T)] \leq T^{2 / 3} \times O(K \log T)^{1 / 3}$ 。

Explore-first的方法性能损失比较大，由此有epsilon-greedy算法：

epsilon-greedy

如果假设探索的概率(exploration probability ) $\epsilon_{t} \sim t^{-1 / 3}$ ，此时探索的阶数是 $t^{2/3}$ ，会和Explore-first探索的阶次一样。

在这里插入图片描述

Adaptive exploration

exploration-first 和epsilon-greedy都不会说依据历史的奖励反馈信息来自适应调整贪婪策略，这一节主要来对比一下二者。一个很自然的想法是当我们发现了一个好的arm，或者说能获得更多奖励的arm，我们就将之前的抛弃，选择这个更好的arm。还是考虑 $K = 2$ 的情况，那如何定义一个arm的好坏就成了问题的关键。

$t$ 是回合数， $n_{t}(a)$ 为arm $a$ 在 $t$ round内被选中的次数， $\bar{u}_{t}(a)$ 是arm a到目前 $t$ round 的平均奖励，基于Hoeffding Inequality有：

$\operatorname{Pr}\left[\left|\bar{\mu}_{t}(a)-\mu(a)\right| \leq r_{t}(a)\right] \geq 1-\frac{2}{T^{4}}$

其中 $r_{t}(a) = \sqrt{\frac{2logT}{n_{t(a)}}}$ ，被称作confidence radius。 $n_{t}$ 可能会基于arm a过去所获得的奖励信息，因此arm a上的采样并不需要独立分布。

对每个arm a，想象有一个reward tape：是一个 $\times T$ 的表格，其中的每个cell独立地从 $\mathcal{D}_{a}$ 中采样，如下图所示：

第 $j$ 个格子储存我们第 $j$ 次选择这个arm所观察到的reward，记为 $v_{j}(a)$ 。同样，记 $\bar{v}_{j}(a)$ 为前j个格子的平均值。基于Hoeffding Inequality有：

$\forall j \quad \operatorname{Pr}\left(\left|\bar{v}_{j}(a)-\mu(a)\right| \leq r_{t}(a)\right) \geq 1-\frac{2}{T^{4}}$

再将所有的arm考虑进来，有：

在这里插入图片描述

上述公式(1.6)其实是clean event的一个分析。由此可以得到在round $t$ 下arm $a$ 的upper/lower confidence bounds：

$\begin{array}{l} \mathrm{UCB}_{t}(a)=\bar{\mu}_{t}(a)+r_{t}(a) \\ \mathrm{LCB}_{t}(a)=\bar{\mu}_{t}(a)-r_{t}(a) \end{array}$

$[\mathrm{LCB}_{t}(a); \mathrm{UCB}_{t}(a)]$ 区间被称作置信区间(confidence interval)。知道了这样一个区间就相当于知道了一个arm期望奖励大概的范围，当某个arm的UCB比另外一个arm的LCB还要低的时候，就可以抛弃这个arm了，也就完成了对arm好坏的一个定义。

Successive Elimination algorithm（k=2）

基于上述思想，介绍Successive Elimination算法。

Successive Elimination算法

在假定clean event的情况下，产生一个disqualified(不合格)的arm，会累计多少regret？

当 $t$ 到达了last round，还没有到达终止条件，也就是两个arms的置信间隔具有重叠，有：

$\Delta:=\left|\mu(a)-\mu\left(a^{\prime}\right)\right| \leq 2\left(r_{t}(a)+r_{t}\left(a^{\prime}\right)\right)$

置信区间重叠

由于算法开始是交替选择两个arm，因此有 $n_{t}(a)=\frac{t}{2}$ ，可以得到：

$\Delta \leq 2\left(r_{t}(a)+r_{t}\left(a^{\prime}\right)\right) \leq 4 \sqrt{\frac{2 \log T}{\lfloor t / 2\rfloor}}=O(\sqrt{\frac{\log T}{t}})$

直到round $t$ 整个的累计regret可表示为：

$\leq \Delta \times t \leq O(t \cdot \sqrt{\frac{\log T}{t}})=O(\sqrt{t \log T})$

可以发现这种算法的regret bound $\sqrt{t}$ 要强于之前的贪心算法 $T^{2/3}$ 了。为了分析更加完整，考虑bad event的情况如下所示：

Lemma 1.6.

Successive Elimination algorithm（k >2）

将其扩展到 $K > 2$ 的情形，得到Successive Elimination算法：

Successive Elimination算法

现在对这个算法做一个简要分析， $K = 2$ arm，bad event的情况仍是不考虑。假定最优arm为 $a^{*}$ ，对于任意一个arm $a$ 有 $\mu(a) < \mu(a^{*})$ 。如果我们没有抛弃这个arm，那么其置信区间和最优的arm的置信区间是重合的：

$\Delta(a):=\mu\left(a^{*}\right)-\mu(a) \leq 2\left(r_{t}\left(a^{*}\right)+r_{t}(a)\right)=O\left(r_{t}(a)\right)$

即arm $a$ 的mean reward和最好的mean reward的差距。最后一个等式能够成立的原因在于 $n_{t}(a)$ 和 $n_{t}(a^{*})$ 其最多差1(算法是交替选择action)。由于arm $a$ 没有play过，因此 $n_{t}(a)=n_{T}(a)$ ，因此有 $r_{t}(a)=r_{T}(a)$ ，可以得到：

上述公式的直观理解就是某个arm被选择了很多次，却没有被抛弃，就说明这个arm不会太差。之后的分析都基于这个公式。

arm $a$ 在round $t$ 处的regret定义为 $R (t; a)$ ， $\Delta(a)$ 表示为对每个played的arm，依据公式(1.7)得到以下上界：

$a)=n_{t}(a) \cdot \Delta(a) \leq n_{t}(a) \cdot O(\sqrt{\log T / n_{t}(a)})=O(\sqrt{n_{t}(a) \log T})$

将上述等式的关系带入公式(1.8)得到

$\leq O(\sqrt{K t \log T})$

在这里插入图片描述

基于公式(1.7)可以得到另一个regret bound，将公式(1.7)稍作变形可得： $n_{T}(a) \leq O\left(\frac{\log T}{[\Delta(a)]^{2}}\right)$ ，这个公式的理解就是一个很差的arm不会被played很多次。对每个arm $\in \mathcal{A}$ ，有：

$a)=\Delta(a) \cdot n_{T}(a) \leq \Delta(a) \cdot O\left(\frac{\log T}{[\Delta(a)]^{2}}\right)=O\left(\frac{\log T}{\Delta(a)}\right)$

对所有的arm $\in \mathcal{A^{+}}$ ，有：

$\leq O(\log T)\left[\sum_{a \in \mathcal{A}^{+}} \frac{1}{\Delta(a)}\right]$

因此得到了另一个下界：

可以看到adaptive exploration与non-adaptive exploration相比较，adaptive exploration是一个对数悔憾界(logarithmic regret bounds)。

Optimism under uncertainty

考虑另一种自适应探索(adaptive exploration)的方法，不确定性下最优求解(optimism under uncertainty)，假设每个arm都尽可能地好，选择其中最优的那个，这个算法叫做UCB1：

UCB1

Arm被选中是由于有大的UCB值，而其由两部分组成，一个是 $\bar{u}_{t}(a)$ 很大，说明其reward很大，另一个是confidence radius $r_{t}(a)$ 很大，说明其值得探索，或者说探索不充分。将其组合在UCB公式中能够平衡其二者的关系。

差值分析

UCB类算法相比贪心算法最大的优势，它的每步都在随着获得的reward反馈动态调整自己的策略，这个特性我们将在之后的RL算法中更加频繁的看到。

小小何先生

关注

7
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
多臂老虎机导论(二)Stochastic Bandits

问题描述如下：算法的目标是最大化累计奖励，基于三个假设:奖励的设定遵循bandit feedback。也就是说算法只能观测到所选择动作的奖励。对于每个动作aaa，都有一个奖励分布Da\mathcal{D}_{a}Da与之对应，每次这个动作aaa被选中，反馈的奖励将会从这个分布中进行采样，并返回给算法。奖励有界 [0,1][0,1][0,1]。往往在实际过程中更多考虑奖...
复制链接

扫一扫