多臂老虎机理论系列

weixin_mm975247003

于 2024-03-05 23:33:21 发布

阅读量875

点赞数 18

分类专栏：强化学习文章标签：算法

本文链接：https://blog.csdn.net/fly975247003/article/details/136326377

版权

强化学习专栏收录该内容

12 篇文章 1 订阅

订阅专栏

Bayesian Bandits and Thompson Sampling

3.3 Bayesian regret analysis
- - 置信区间和遗憾的计算
  - 理解与应用
3.4 Thompson Sampling with no prior (and no proofs)
- - 公式理解
3.5 Literature review and discussion

3.3 Bayesian regret analysis

在这里插入图片描述

贝叶斯遗憾：这是衡量学习算法在一定时间内与最优策略相比性能差异的指标。在这里，它特指汤普森采样策略的表现，即该策略因未始终选择最佳臂（最佳决策）而产生的预期损失。

汤普森采样的贝叶斯遗憾：定理 3.9 提供了汤普森采样的贝叶斯遗憾的上界，表示为 $O(\sqrt{KT\log(T)})$ 。这意味着随着试验次数 $T$ 的增加，汤普森采样策略产生的遗憾与 $\sqrt{KT\log(T)}$ 成比例增长。这是一个非常强的结果，因为它表明遗憾的增长速度相对较慢，特别是在长期内，使得汤普森采样成为一种有效的在线学习策略。

置信区间和遗憾的计算

置信半径（ $r_t(a)$ ）：这是在特定时间点，针对每个决策或“臂”计算的一个量度，反映了我们对该臂真实奖励估计的不确定性。置信半径越大，意味着我们对该臂的估计越不确定。它随着臂被尝试的次数增加而减小，这符合直觉——我们越多尝试一个臂，就越了解它。

上置信界（ $UCB_t(a)$ ）和下置信界（ $LCB_t(a)$ ）：这些界限定义了在给定时间点，每个臂的预期奖励可能的上下界。通过比较不同臂的UCB，算法可以选择当前看起来最有希望（即具有最高UCB）的臂。随着时间的推移，这种选择机制自然会倾向于更频繁地选择表现良好的臂，同时仍然保留探索较少尝试的臂的机会（因为它们的置信半径更大）。

理解与应用

在汤普森采样中，我们每次选择一个臂时都会根据当前的数据更新我们对各个臂奖励的估计。这种方法既考虑了探索（尝试每个臂以更好地了解它们）也考虑了利用（选择当前估计为最佳的臂）。贝叶斯遗憾分析显示，这种平衡探索与利用的策略，在长期内会导致相对较低的遗憾，即它能有效地接近最优策略的表现。

通过设置和更新每个臂的上下置信界，汤普森采样能够动态调整其选择，从而在未知的环境中实现高效的决策。这种方法特别适用于需要连续决策和不断学习的场景，如在线广告投放、临床试验或任何形式的适应性策略制定。
在这里插入图片描述
公式 (3.14) 和 (3.15) 表示了在多臂老虎机问题中，对每个动作或“臂” $a$ ，以及在给定时间 $t$ 的历史信息 $H_t$ 下，置信区间的上界 $U(a, H_t)$ 和下界 $L(a, H_t)$ 与真实的平均回报 $\mu(a)$ 之间的关系。这些公式确保了在学习过程中，对每个动作的回报估计既不会过高也不会过低。这里是每个公式的详细解释：

公式 (3.14)：
$\mathbb{E} \left[ [U(a, H_t) - \mu(a)]^- \right] \leq \frac{\gamma}{TK}$
- 这表示对于所有动作 $a$ 和所有轮次 $t$ ，上界 $U(a, H_t)$ 与实际平均回报 $\mu(a)$ 之差的期望负部分不超过 $\frac{\gamma}{TK}$ 。
- 这里的期望负部分 $x]^-$ 是指如果 $H_t) - \mu(a)$ 是正数，则 $x]^- = 0$ ；如果是负数，则为 $∣ x ∣$ 。
- 这个不等式控制了上界 $U$ 在平均而言不会低估真实平均回报 $\mu(a)$ 。
公式 (3.15)：
$\mathbb{E} \left[ [\mu(a) - L(a, H_t)]^- \right] \leq \frac{\gamma}{TK}$
- 这表示对于所有动作 $a$ 和所有轮次 $t$ ，实际平均回报 $\mu(a)$ 与下界 $L(a, H_t)$ 之差的期望负部分不超过 $\frac{\gamma}{TK}$ 。
- 同样地，这里的 $x]^-$ 是指如果 $\mu(a) - L(a, H_t)$ 是正数，则 $x]^- = 0$ ；如果是负数，则为 $∣ x ∣$ 。
- 这个不等式控制了下界 $L$ 在平均而言不会高估真实平均回报 $\mu(a)$ 。

在这里， $\gamma$ 是一个正的参数，它可能会根据算法的需求和理论保证进行调整，而 $T K$ 是一个常数，其中 $T$ 是轮次的总数， $K$ 是动作的总数。这些不等式有助于在学习算法中平衡探索（尝试新动作）和利用（选择已知的最佳动作）。

置信区间的宽度，即置信半径
$H_t) = \frac{U(a, H_t) - L(a, H_t)}{2}$
是上界和下界之间差的一半，用于衡量对动作 $a$ 回报估计的不确定性。当置信半径较小时，意味着对该动作的回报估计更加准确。
在这里插入图片描述
假设我们有满足性质 (3.14) 和 (3.15) 的下界和上界函数，对于某个参数 $\gamma > 0$ ，那么 Thompson Sampling 的贝叶斯遗憾可以被界定如下：

$\leq 2\gamma + 2 \sum_{t=1}^{T} \mathbb{E} [r(a_t, H_t)]$

在这个公式中：

$BR (T)$ 是在时间 $T$ 内的贝叶斯遗憾。
$\gamma$ 是一个正参数。
$\sum_{t=1}^{T} \mathbb{E} [r(a_t, H_t)]$ 是期望回报的总和，其中 $a_t$ 是在时间 $t$ 采取的动作， $H_t$ 是到时间 $t$ 为止的历史信息， $r(a_t, H_t)$ 表示在历史信息 $H_t$ 下采取动作 $a_t$ 的期望回报。

我们有以下的数学表达式和公式：

首先是关于随机变量 $a_t$ 和 $a^*$ 的分布的描述：
$Pr[a_t = a | H_t = H] = Pr[a^* = a | H_t = H]$

接着，描述了在给定历史信息 $H$ 下，两个动作的期望效用是相同的：
$E[U(a^*, H) | H_t = H] = E[U(a_t, H) | H_t = H]$

然后是贝叶斯遗憾 $BR_t$ 的表述，它是基于期望效用差的期望：
$BR_t := E[\mu(a^*) - \mu(a_t)]$

这个遗憾进一步分解为条件期望：
$BR_t = E_{H \sim H_t}[E[U(a^*) - \mu(a_t) | H_t = H]]$

通过条件期望和外层期望的嵌套，我们得到了 $BR_t$ 的另一个表达形式：
$BR_t = E_{H \sim H_t}[E[U(a_t, H) - \mu(a_t) + \mu(a^*) - U(a^*, H) | H_t = H]]$

最后，这个遗憾被分解成两部分（Summand 1 和 Summand 2）：
$E[U(a_t, H_t) - \mu(a_t)] \quad \text{(Summand 1)}$
$E[\mu(a^*) - U(a^*, H_t)] \quad \text{(Summand 2)}$
在这里插入图片描述

第一个加数（Summand 1）涉及的是最佳动作 $a^*$ 的期望效用与其在历史信息 $H_t$ 下的实际上界 $U(a^*, H_t)$ 之间的差。这个期望差的处理开始于：

$\mathbb{E}[\mu(a^*) - U(a^*, H_t)]$

这表示在所有可能的历史信息下，最优动作的平均效用与上界之间的期望差异。
接着，我们考虑这个差值的正部分（因为我们只关心上界低于实际平均的情况）：

$\leq \mathbb{E} [ (\mu(a^*) - U(a^*, H_t))^+ ]$
通过引入所有可能动作的总和，这一步假设每个动作的贡献都是独立的，并且通过聚合所有动作来放宽限制：

$\leq \mathbb{E} \left[ \sum_{\text{arms } a} (\mu(a) - U(a, H_t))^+ \right]$
由于性质 3.14，我们可以将每个动作的期望正差异转化为一个上限：

$\sum_{\text{arms } a} \mathbb{E} [ (U(a, H_t) - \mu(a) )^- ] \leq K \cdot \frac{\gamma}{KT} = \frac{\gamma}{T}$

这一步使用了性质 3.14 来界定每个动作的期望负差异，即上界不会太过低估实际平均效用。
第二个加数（Summand 2）处理当前选择的动作 $a_t$ 的期望效用与其实际效用之间的差异：

$\mathbb{E}[U(a_t, H_t) - \mu(a_t)] = \mathbb{E}[2r(a_t, H_t) + L(a_t, H_t) - \mu(a_t)]$

这里 $2r(a_t, H_t)$ 是上下界差的两倍， $L(a_t, H_t)$ 是下界。
同样，我们考虑这个差值的正部分，并且通过聚合所有可能动作的贡献：

$\mathbb{E}[|L(a_t, H_t) - \mu(a_t)|] \leq \mathbb{E} [ (L(a_t, H_t) - \mu(a_t))^+ ] \leq \mathbb{E} \left[ \sum_{\text{arms } a} (L(a, H_t) - \mu(a))^+ \right]$
通过使用性质 3.15，同样地，我们可以将这个期望正差异转化为一个上限：

$\sum_{\text{arms } a} \mathbb{E} [ (\mu(a) - L(a, H_t) )^- ] \leq K \cdot \frac{\gamma}{KT} = \frac{\gamma}{T}$

这一步使用了性质 3.15 来界定每个动作的期望负差异，即下界不会太过高估实际平均效用。
最终，我们用贝叶斯遗憾的定义来合并上述推导的结果：

$\leq 2\gamma + 2 \sum_{t=1}^{T} \mathbb{E}[r(a_t, H_t)]$

这里的 $2\gamma$ 来自于对所有动作的遗憾上界的总和，而 $\sum_{t=1}^{T} \mathbb{E}[r(a_t, H_t)]$ 则是由于每个时间步的上界与实际效用之间的差异所累积的遗憾。

最后，我们需要理解 $r(a_t, H_t)$ 的意义，这是在时间 $t$ ，基于历史信息 $H_t$ ，对于选定动作 $a_t$ 的遗憾的期望值。这一项是遗憾的核心，表明了算法在不完全信息下做决策时，与最优决策相比可能产生的损失。

综上所述，这个贝叶斯遗憾的界限提供了对于算法性能的一种理论评估。这个界限表明，随着试验次数 $T$ 的增加，每次试验的平均遗憾（ $BR (T) / T$ ）将趋向于零，如果 $\gamma$ 被适当选择。这也就意味着，这个算法在长期内会逐渐接近最优动作的效用。这是多臂老虎机问题（multi-armed bandit problem）中一种常见的性能衡量方式，用于评估一个算法在面对不确定性和探索-利用权衡（exploration-exploitation tradeoff）时的效能。
在这里插入图片描述

Remark 3.11指出，汤普森采样算法并不需要知道上置信界 $U$ 和下置信界 $L$ 具体是什么。这是指在实际执行汤普森采样时，算法主要依赖于从先验分布中采样来做出决策，而不是依赖于确定性的置信区间。这与其他一些基于置信界的算法（如UCB算法）不同，后者需要显式计算和比较置信界来选择动作。汤普森采样通过从后验分布中随机抽取来平衡探索和利用，从而使得它不必直接计算置信界。

Remark 3.12是关于引理 3.10 的，指出该引理并不依赖于先验分布的具体结构。这意味着，无论先验分布的形式如何，只要我们能定义出“好”的置信界 $U$ 和 $L$ ，这个引理就可以用来上界汤普森采样的贝叶斯遗憾。换句话说，这个结论对一类具有良好置信界的先验分布是通用的，这强调了在不同先验下算法稳健性的理论支持。

“良好”或“nice”置信界指的是那些可以准确反映不确定性并且与真实参数有很好相关性的置信界。对于特定类别的先验分布，只要能够为这些分布构造出这样的置信界，我们就可以用引理 3.10 来评估汤普森采样的性能，确保算法在这类问题上的贝叶斯遗憾受到控制。

简而言之，这两条评论强调了汤普森采样的灵活性和通用性：它不需要确切的置信界来操作，并且其性能上界可以适用于一大类先验分布，只要这些分布可以配合合适的置信界。

这是定理 3.9 的证明摘要，涉及到汤普森采样（Thompson Sampling）的贝叶斯遗憾（Bayesian Regret, BR(T)）的界限。让我们一步步解析这个证明：

首先，定理基于之前定义的置信区间的属性（公式 3.14 和 3.15）以及置信半径（引用自公式 3.13），这些都符合引理 3.10 的条件，即这些条件对任何特定的先验分布都成立，只要这些分布拥有良好的置信界 $U$ 和 $L$ 。
在这里插入图片描述

贝叶斯遗憾 $BR (T)$ 的上界是通过对所有时间步 $\ldots, T$ 的期望不确定性进行总和而得到的，可以表达为：

$\leq O \left( \sqrt{\log T} \right) \sum_{t=1}^T \mathbb{E} \left[ \frac{1}{\sqrt{n_t(a_t)}} \right].$
这个总和可以被重新表达为对所有动作 $a$ 和它们各自被选择的轮次的平方根倒数之和：

$\sum_{t=1}^T \sqrt{\frac{1}{n_t(a_t)}} = \sum_{a} \sum_{t: a_t = a} \sqrt{\frac{1}{n_t(a)}}$
然后利用算术平方根之间的不等式（算术平均数与二次平均数不等式），转换上述总和为：

$\sum_{a} \sum_{j=1}^{n_T+1(a)} \frac{1}{\sqrt{j}} = \sum_{a} O\left( \sqrt{n(a)} \right)$

其中 $n (a)$ 是动作 $a$ 在时间 $T$ 内被选中的次数。
最终，通过将所有动作的选择次数求和，我们得到贝叶斯遗憾的界限：

$\leq O \left( \sqrt{K T \log T} \right),$

这里 $K$ 是动作（或臂）的数量， $T$ 是总时间步数。

这个证明提供了一个重要的结果：汤普森采样的贝叶斯遗憾随时间的增长以 $\sqrt{T}$ 的速度增加，这是多臂赌博机问题中所期望的良好增长速度。这表明，随着时间的推移，汤普森采样方法能够在保持探索和利用之间的平衡的同时，有效地接近最优动作选择。

3.4 Thompson Sampling with no prior (and no proofs)

在这里插入图片描述
如何使用汤普森采样（Thompson Sampling）算法，即使在没有内置先验分布 $\mathbb{P}$ 的情况下。在这种情境下， $\mathbb{P}$ 被称作一个“假先验”（fake prior），因为它不反映任何实际的先验知识，而仅仅是算法参数。

"假先验"的概念意味着，即使我们没有关于赌博机的具体先验知识，我们仍然可以通过假定一个先验来使用汤普森采样算法。这里介绍的“假先验”包括：

独立均匀先验和0-1奖励：这意味着每个动作的先验分布被假设为均匀分布，而奖励则遵循0或1的结果。这种情况通常对应于所谓的伯努利赌博机，每个臂提供的奖励是二元的。
独立标准高斯先验和标准高斯奖励：在这种情况下，每个动作的先验和奖励都被假设为遵循标准正态分布（高斯分布）。这对应于所谓的高斯赌博机，其中每个臂提供的奖励遵循高斯分布。

使用这些“假先验”可以让我们应用汤普森采样算法，即使我们没有任何关于真实奖励分布的先验知识。这种方法允许算法继续在探索和利用之间做出平衡决策，尽管它是基于一些可能与实际情况不完全吻合的假设。

在这里插入图片描述
定理3.13：声明汤普森采样，当使用方法(i)或(ii)（这里没有详细说明）实现时，可以实现期望遗憾界限，其为 $O(\sqrt{KT \log T})$ 。这意味着遗憾的增长速度与臂的数量( $K$ )乘以时间范围( $T$ )的对数成正比。

定理3.14：对于每个问题实例，汤普森采样的实现方式确保了期望遗憾 $E [R (T)]$ ，对于所有大于0的 $\epsilon$ ，其上界为： $\leq (1 + \epsilon) C \log(T) + \frac{f(\mu)}{\epsilon^2},$ 其中 $C$ 定义为： $\sum_{\text{arms} \ a: \Delta(a) < 0} \frac{\mu(a^*) - \mu(a)}{KL(\mu(a), \mu^*)}.$
这里 $\mu(a^*)$ 是最佳动作的平均回报， $\mu(a)$ 是动作 $a$ 的平均回报，而 $KL(\mu(a), \mu^*)$ 是动作 $a$ 的平均回报与最佳动作平均回报的概率分布之间的Kullback-Leibler散度。

$f(\mu)$ 依赖于平均回报向量 $\mu$ ，但它不依赖于 $\epsilon$ 或 $T$ 。
$\Delta(a)$ 表示最优动作与动作 $a$ 之间预期回报的差异。

常数 $C$ 很重要，因为它代表了遗憾界限中的最优常数，表明了汤普森采样的效率。该定理表明，虽然汤普森采样在实践中表现良好，但理论上对遗憾的上界，即 $f(\mu)$ 项，可能很大。

公式理解

期望遗憾：期望遗憾 $E [R (T)]$ 是衡量随时间演变的老虎机策略性能的一种度量，比较实际获得的收益和如果总是选择最佳动作所能获得的收益。
遗憾界限： $\epsilon) C \log(T) + \frac{f(\mu)}{\epsilon^2}$ 的界限表示随着时间推移（ $T$ 增加），遗憾以对数形式增长，这通常被认为对于老虎机问题是好的，因为它意味着每轮遗憾随时间减少。
常数 $C$ ：这是基于最佳动作与其他动作之间的平均回报差异计算的，这些差异通过它们的KL散度的逆加权。这强调了与最佳动作相比其他动作有多差，以及根据KL散度测量的该评估的相对确定性（或不确定性）。
函数 $f(\mu)$ ：这个函数取决于平均回报，为遗憾的上界添加了一个复杂性层次，但其确切形式在此未给出。注意，这一项不依赖于 $\epsilon$ 或 $T$ ，表明它是奖励分布的特性，而不是时间范围或近似精度。

理解这些组件可以帮助在不同条件下以及多臂老虎机场景中的各种问题实例分析汤普森采样的效率。

3.5 Literature review and discussion

在这里插入图片描述
上述讨论了汤普森采样算法在多臂老虎机问题中的应用和发展，以及与之相关的理论进展。下面是对文本内容的解释和理解：

汤普森采样是一种历史悠久的多臂老虎机算法（最初由Thompson, 1933提出），直到最近才被证明具有强大的可证明保证。近年来，关于此算法的各种变体和发展已被广泛研究，详细调查可以在Russo et al. (2018)中找到。

主要内容和贡献：

节3.3的内容来源于Russo和Van Roy (2014)，他们改进了该方法以获得更好的上界，这些上界适用于特定类别的先验分布，包括线性和“广义线性”的平均回报向量，以及由高斯过程给出的先验。Bubeck和Liu (2013)获得了 $O(KT^{\frac{3}{4}})$ 的遗憾界限，而Russo和Van Roy (2016)去除了定理3.9中的 $\log(T)$ 因子，得到了随先验诱导的最优动作分布的熵缩放的遗憾界限。
节3.4的先验独立结果来自Agrawal和Goyal (2012, 2013, 2017)以及Kaufmann等人(2012)。他们提出了汤普森采样的第一个“先验独立”遗憾界限，这是一个较弱的定理3.14版本。Agrawal和Goyal (2012)还为汤普森采样的贝叶斯遗憾提供了一个匹配的下界。定理3.14也出现在Kaufmann等人(2012)、Agrawal和Goyal (2013, 2017)的工作中。此外，Bubeck和Sellke (2020)将汤普森采样扩展到对抗性老虎机，这些变体在最新的成果中得到了应用，如Bubeck等人(2015)、Zimmert和Lattimore(2019)，这些研究建立在Russo和Van Roy (2016)的分析技术之上。

附注解释：

文本底部的注释3解释了如何处理非0或1的奖励 $r_t$ ，可以通过抛掷一个期望值为 $r_t$ 的随机硬币，并将这次抛掷的结果作为汤普森采样的奖励来简单处理。
注释4是关于Russo和Van Roy (2014)使他们的技术更加透明的进展。
注释5表明，在标准-高斯先验下，Agrawal和Goyal (2013, 2017)实现了稍强的版本，即 $O(\frac{KT}{\log K})$ 的遗憾界限，而Kaufmann等人(2012)为 $\log(T)$ 提供了略微弱的版本，即将 $\log(T)$ 替换为 $\ln(T)$ 加上 $\ln(T)$ 。

weixin_mm975247003

关注

18
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
多臂老虎机理论系列

的内容来源于Russo和Van Roy (2014)，他们改进了该方法以获得更好的上界，这些上界适用于特定类别的先验分布，包括线性和“广义线性”的平均回报向量，以及由高斯过程给出的先验。首先，定理基于之前定义的置信区间的属性（公式 3.14 和 3.15）以及置信半径（引用自公式 3.13），这些都符合引理 3.10 的条件，即这些条件对任何特定的先验分布都成立，只要这些分布拥有良好的置信界。这表明，随着时间的推移，汤普森采样方法能够在保持探索和利用之间的平衡的同时，有效地接近最优动作选择。
复制链接

扫一扫

专栏目录