多臂老虎机理论系列

weixin_mm975247003

已于 2024-02-27 16:28:17 修改

阅读量1.1k

点赞数 23

分类专栏：强化学习文章标签：强化学习论文算法

于 2024-02-27 16:24:01 首次发布

本文链接：https://blog.csdn.net/fly975247003/article/details/135923613

版权

强化学习专栏收录该内容

12 篇文章

订阅专栏

本文围绕贝叶斯多臂老虎机问题展开，介绍了贝叶斯遗憾及相关简化假设。阐述了贝叶斯更新过程，指出后验分布与算法无关。还探讨了汤普森抽样算法，分析其计算复杂度，并提出序贯贝叶斯更新提升效率，最后介绍了贝塔 - 伯努利和高斯先验与后验分布结合情况。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Bayesian Bandits and Thompson Sampling

3.1 Bayesian update in Bayesian bandits
3.2 Algorithm specification and implementation
- Beta-Bernoulli
- Gaussians

在这里插入图片描述

贝叶斯多臂老虎机问题增加了对随机多臂老虎机的贝叶斯假设：问题实例 $I$ 最初是从某个已知的分布 $\mathbb{P}$ 中抽取的。时间范围 $T$ 和臂的数量 $K$ 是固定的。然后一个随机多臂老虎机的实例是由平均奖励向量 $\mu \in [0,1]^K$ 和奖励分布 $(D_a : a \in [K])$ 来指定的。分布 $\mathbb{P}$ 被称为先验分布或贝叶斯先验。目标是优化贝叶斯遗憾：对于一个特定的问题实例$ I $，预期的遗憾，在所有问题实例上的期望中：
$\mathbb{E}_{I \sim \mathbb{P}} [ \mathbb{E} [ R(T) | I ] ] = \mathbb{E}_{I \sim \mathbb{P}} \left[ \mu^* \cdot T - \sum_{t \in [T]} \mu(a_t) \right]$

其中， $\mu^*$ 是所有可能动作中期望奖励最大的一个， $a_t$ 是在时间 $t$ 所选择的动作， $\mu(a_t)$ 是在时间 $t$ 选择动作 $a_t$ 的期望奖励。贝叶斯遗憾是最优动作的奖励与实际动作奖励之差的总和的期望值。
在这里插入图片描述

上述讨论的是贝叶斯多臂老虎机问题，它提到了贝叶斯多臂老虎机遵循贝叶斯统计学中的一种众所周知的方法：未知量是从已知分布中采样的，并在此分布上优化期望值。这里提到了一个“最坏情况”下的遗憾界限（即对所有问题实例都成立的 $\mathbb{E}[R(T)]$ 的上界），这也暗示了贝叶斯遗憾的同样上界。简而言之，贝叶斯遗憾考虑了所有可能的问题实例，并对最佳动作和实际所采取的动作之间的期望奖励差异进行了期望。这种方法考虑了不确定性，并在此基础上寻找最优策略。最坏情况下的遗憾界限为我们提供了一种评估算法性能的方法，即不管问题实例如何，算法的表现都不会超过这个界限。
在这里插入图片描述

上述介绍了在处理贝叶斯多臂老虎机问题时所做的一些简化假设，以便于更清晰地呈现问题：

实现的奖励来自一个单参数分布族。存在一个实数值分布族 $(D_\nu, \nu \in [0, 1])$ ，算法已知，并且每个分布 $D_\nu$ 的期望是 $\nu$ 。一个典型的例子是伯努利奖励和单位方差高斯分布。每个臂 $a$ 的奖励是从分布 $D_\mu(a)$ 中抽取的，其中 $\mu(a) \in [0, 1]$ 是平均奖励。问题实例完全由平均奖励向量 $\mu \in [0,1]^K$ 指定，并且先验 $\mathbb{P}$ 就是 $\mu$ 抽取自的分布。
除非另有说明，实现的奖励只能取有限多个不同的值，并且先验 $\mathbb{P}$ 有一个有限的支持集，表示为 $\mathcal{F}$ 。这样我们可以专注于Thompson Sampling必要的概念和论证，而不必担心积分和概率密度的复杂性。然而，下面陈述的定义和引理可以扩展到任意先验和任意奖励分布。
对于先验 $\mathbb{P}$ 支持集中的每个平均奖励向量，最佳臂 $a^*$ 是唯一的。这只是为了简化，这个假设可以在稍微增加一些符号负担的情况下去除。

这些简化是为了使问题的分析和算法的设计更为直观，便于理解。通过限制奖励分布和先验分布的复杂性，可以更容易地讨论和实现算法，同时也能将得出的结论和算法应用到更一般的情况。

3.1 Bayesian update in Bayesian bandits

在这里插入图片描述

3.1.1 Terminology and notation

在这里插入图片描述

这段文字描述了在处理多臂老虎机算法时如何记录和理解算法在前 $t$ 轮内的历史行为和奖励。这里介绍了 $t$ -历史的概念， $t$ -历史是由一系列动作-奖励对组成的序列，记为 $H_t$ 。

具体来说， $H_t$ 表示为：

$H_t = ((a_1, r_1), \ldots, (a_t, r_t)) \in (\mathcal{A} \times \mathbb{R})^t.$

这里的 $H_t$ 是一个随机变量，它依赖于平均奖励向量 $\mu$ 、算法本身以及奖励分布（以及这三者的所有随机性）。

$\mathcal{A}$ 代表动作的集合。
$a_i$ 代表第 $i$ 轮选择的动作。
$r_i$ 代表第 $i$ 轮观察到的奖励。
$(\mathcal{A} \times \mathbb{R})^t$ 表示由 $t$ 个动作-奖励对组成的序列的集合。

上述还引入了一个固定序列 $H$ ：

$((a'_1, r'_1), \ldots, (a'_t, r'_t)) \in (\mathcal{A} \times \mathbb{R})^t,$

如果一个序列 $H$ 满足对某个多臂老虎机算法，存在 $Pr[H_t = H] > 0$ ，则称 $H$ 为一个可行的 $t$ -历史。如果一个算法总是确定性地选择动作 $a^{'}$ ，在每一轮 $\in [t]$ 中，根据历史 $H$ 选择动作，那么这样的算法被称为 $H$ 诱导的算法。

此外， $\mathcal{H}_t$ 表示所有可行的 $t$ -历史的集合。对于伯努利奖励和满足对所有臂 $a$ 有 $Pr[\mu(a) \in (0, 1)] = 1$ 的先验 $\mathbb{P}$ ， $\mathcal{H}_t$ 是有限的，因为每个奖励只能取有限多个不同的值。对于伯努利奖励， $\mathcal{H}_t$ 可以写为 $(\mathcal{A} \times \{0, 1\})^t$ 。
在这里插入图片描述
上述讨论的是在给定一个可行的 $t$ -历史 $H$ 的条件下，计算平均奖励向量 $\mu$ 属于某个集合 $M$ 的条件概率。这里使用了贝叶斯统计的术语来描述这个概率，表示为 $\mathbb{P}_H(M)$ ，它被定义为：

$\mathbb{P}_H(M) := Pr[\mu \in M | H_t = H], \quad \forall M \subseteq [0, 1]^K.$

这个表达式对于 $H$ 诱导的算法以及更一般的任何 $H$ -一致的多臂老虎机算法都是明确定义的。这里 $\mathbb{P}_H$ 被解释为在给定历史 $H$ 之后的后验分布。

在贝叶斯统计中，我们通常开始于一个先验分布，它表示在考虑任何数据之前对参数的信念。当观察到新的数据时，我们会利用贝叶斯更新来计算一个后验分布，这是考虑观测到的数据后对参数信念的更新。在多臂老虎机问题中， $H$ -诱导的算法会利用先前的动作和奖励的历史 $H$ 来更新对每个臂的平均奖励 $\mu$ 的信念。

上述提到的 $\mathbb{P}_H$ 是在第 $t$ 轮后的（贝叶斯）后验分布。计算 $\mathbb{P}_H$ 的过程称为给定历史 $H$ 的贝叶斯更新。这意味着，在每一轮后，算法都会根据到目前为止收集到的数据（在 $t$ -历史 $H$ 中）来更新其关于奖励分布的理解。

通过这种方式，算法不仅仅是被动地收集奖励信息，而是积极地利用这些信息来改进未来的动作选择。这是一个动态过程，允许算法适应环境的变化并优化其性能。

3.1.2 Posterior does not depend on the algorithm

在这里插入图片描述
上述提到了贝叶斯多臂老虎机的一个重要事实：后验分布 $\mathbb{P}_H$ 不依赖于收集历史数据的 $H$ -一致多臂老虎机算法是哪一个。换句话说，无论哪个算法在遵循 $H$ -一致性原则下收集历史数据，得到的后验分布都将是相同的。

这里的 $H$ -一致性指的是，算法在每一步都遵循相同的规则来选择动作，这些规则只依赖于到目前为止的历史，而不依赖于算法的其他方面。因此，我们可以在不失一般性的情况下考虑由历史 $H$ 诱导的算法，因为所有这样的算法将得到相同的后验分布。

这是贝叶斯统计的一个核心原则，即后验分布只依赖于数据（在这个情况下是历史 $H$ ）和先验分布，而与数据是如何被收集的具体算法无关。这使得后验分布是算法独立的，为不同的算法提供了一个共同的基础来更新它们关于世界的信念。简单来说，这意味着后验分布的计算只与观察到的数据有关，而与收集数据的具体过程或算法无关。
在这里插入图片描述
这段文字中的“引理 3.1”表达了以下数学概念：

引理 3.1: 分布 $\mathbb{P}_H$ 对于所有 $H$ -一致的多臂老虎机算法是相同的。

这意味着，无论我们使用哪个满足 $H$ -一致性的算法来收集数据，计算得到的后验分布 $\mathbb{P}_H$ 都将保持不变。 $H$ -一致的多臂老虎机算法是指那些在历史 $H$ 的条件下作出决策时，其行为是一致的算法。这些算法的决策过程仅仅依赖于已经观察到的数据（历史 $H$ ），而与算法的具体实现细节无关。

从贝叶斯统计学的角度来看，这个引理说明了后验分布是由数据确定的，而不是由分析数据的具体方法或算法决定的。也就是说，不同的算法可能在探索和利用（exploration-exploitation）的权衡上采取不同策略，但只要它们都遵循了相同的 $H$ -一致性原则，它们更新信念时使用的后验分布将会是一样的。这个特性是贝叶斯方法的一个关键优势，因为它保证了后验分布的客观性和一致性。
在这里插入图片描述

Recall that the reward distribution with mean reward $\tilde{\mu}(a)$ places probability $D_{\tilde{\mu}(a)}(r)$ on every given value $\in \mathbb{R}$ .

这句话的意思是，回忆一下存在一个回报分布，其平均回报是 $\tilde{\mu}(a)$ ，这个分布对于所有的实数值 $r$ ，都赋予了一个概率 $D_{\tilde{\mu}(a)}(r)$ 。这里 $D_{\tilde{\mu}(a)}$ 表示的是以 $\tilde{\mu}(a)$ 为均值的某个概率分布函数，而 $D_{\tilde{\mu}(a)}(r)$ 就是这个概率分布函数在 $r$ 这个点的值。简单来说，对于每一个可能的回报值 $r$ ，都有一个确定的概率，这个概率是由均值为 $\tilde{\mu}(a)$ 的回报分布决定的。

上述提供了一个证明，说明后验分布 $\mathbb{P}_H$ 为什么对所有 $H$ -一致性多臂老虎机算法来说是相同的。为了证明引理3.1，作者提出了一个归纳法的策略。以下是对证明步骤的解释：

单例集的证明：证明开始时提出，为了证明整个引理，只需证明对于一个单例集 $\{\hat{\mu}\}$ 的情况，其中 $\hat{\mu}$ 是在可能的平均奖励向量 $0, 1]^K$ 中的任意一个。这是因为后验分布的性质对于所有单个点来说是一样的，所以对整个分布也是一样的。
条件概率：接下来，说明我们感兴趣的是条件概率 $Pr[\mu = \hat{\mu} | H_t = H]$ ，即在历史 $H$ 给定的情况下，平均奖励向量 $\mu$ 等于某个特定值 $\hat{\mu}$ 的概率。这是后验概率的定义。
奖励分布：作者提醒我们，平均奖励 $\hat{\mu}(a)$ 定义了每个动作 $a$ 的奖励分布 $D_{\hat{\mu}(a)}(r)$ ，它对于 $\mathbb{R}$ 中的每个值 $r$ 都给出了一个概率。
归纳基础：证明通过对时间 $t$ 使用归纳法来构建。基础情况是 $t = 0$ ，此时没有历史，即 $H_0 = \emptyset$ 。这种情况下，唯一可能的0-历史是空集，所以所有算法都是 $0$ -一致的。
先验概率：在 $t = 0$ 时，条件概率 $Pr[\mu = \hat{\mu} | H_0 = \emptyset]$ 简化为先验概率 $\mathbb{P}(\hat{\mu})$ 。这是因为在没有观察到任何奖励之前，我们只能依赖于先验分布来提供关于 $\mu$ 的信息。

第二段话解释：

使用 $t$ 的归纳法：这意味着作者将使用数学归纳法来进行证明，这是一种证明技巧，在这种情况下，我们假设某个性质对于某个整数 $t$ 成立，并试图证明对于所有的 $t$ 也是如此。
基础情况是 $t = 0$ ：在数学归纳法中，我们首先证明最初的情况（基础情况），在这里是 $t$ 等于0的情况。
为了使其明确定义，我们定义0历史为 $H_0 = \emptyset$ ：这里，作者定义了一个概念，即在开始阶段没有任何历史信息的情况，用一个空集表示。
这样 $\emptyset$ 就是唯一可能的0历史：这意味着在开始阶段，不存在其他历史情况，只有这个空的历史。
那么，所有算法都是 $\emptyset$ -一致的：在这种没有任何先前信息的情况下，所有的算法应该给出一致的结果。
条件概率 $\Pr[\mu = \tilde{\mu} | H_0 = H]$ 简单来说就是先验概率 $\Pr(\tilde{\mu})$ ：这表示在没有任何先前信息的情况下，得到特定向量 $\tilde{\mu}$ 的概率只是这个向量的先验概率，也就是在考虑任何额外信息之前对这个事件发生概率的估计。

通过这个证明的基础步骤，作者建立了在没有任何先验信息的情况下，算法如何依赖于先验概率。接下来的证明步骤（未在这段摘录中显示）将使用归纳法证明在任何后续时间 $t$ ，条件概率保持一致，从而支持引理3.1的论点，即后验分布不依赖于具体的 $H$ -一致性算法。
在这里插入图片描述

正在讨论的是归纳法的一个步骤，特别是归纳假设的应用部分。
考虑轮次 $t$ ，这里 $t$ 至少是 1，这表示我们不再是在讨论起始情况，而是某个进程中的一个后续步骤。
历史 $H$ 被写成是一个可能的 $(t - 1)$ -历史 $H^{'}$ 和一个行动-回报对 $(a, r^{'})$ 的串联。这意味着当前的历史是通过取一个已知的历史序列 $H^{'}$ 并添加一个新的行动和它的回报来构造的。
作者要求我们考虑一个与历史 $H$ 一致的赌博机算法，即一个算法，它的行为是基于到目前为止观察到的行动和回报序列。
然后定义 $\pi(a)$ 为在已知历史 $H^{'}$ 的条件下，这个算法在轮次 $t$ 选择手臂 $a$ 的概率。换句话说， $\pi(a)$ 是在给定了前 $(t - 1)$ 轮次的历史之后，算法在下一轮选择特定行动的概率。
最后一句指出，这个概率 $\pi(a)$ 不依赖于平均回报向量 $\mu$ 。这可能意味着算法的这个决策或选择是基于历史 $H^{'}$ 而不是基于平均回报的任何先验或假设知识。

这样的论述通常出现在探索-利用问题的上下文中，如多臂赌博机问题，特别是在贝叶斯多臂赌博机和汤普森采样的章节中。在这些问题中，算法必须决定在有限的信息下如何分配资源，以最大化长期回报。
在这里插入图片描述
图片中的数学证明主要是计算条件概率 $\Pr[\mu = \tilde{\mu} \text{ and } H_t = H]$ 给定 $H_{t-1} = H'$ 的值。证明过程是这样的：

首先，作者表达了该条件概率，可以写成两个事件的联合概率除以条件的概率：
$\frac{\Pr[\mu = \tilde{\mu} \text{ and } (a_t, r_t) = (a, r) | H_{t-1} = H']}{\Pr[H_{t-1} = H']}$
然后使用概率的乘法规则，将上述表达式拆分为：
$\Pr_{H'}(\tilde{\mu}) \cdot \Pr[(a_t, r_t) = (a, r) | \mu = \tilde{\mu} \text{ and } H_{t-1} = H']$
接着进一步拆分并利用独立性质，可以得到：
$\Pr_{H'}(\tilde{\mu}) \cdot \Pr[r_t = r | a_t = a \text{ and } \mu = \tilde{\mu} \text{ and } H_{t-1} = H'] \cdot \Pr[a_t = a | \mu = \tilde{\mu} \text{ and } H_{t-1} = H']$
其中 $\Pr_{H'}(\tilde{\mu})$ 是先验概率， $D_{\tilde{\mu}(a)}(r)$ 表示在知道行动 $a$ 和平均奖励 $\tilde{\mu}$ 的情况下获得奖励 $r$ 的概率，而 $\pi(a)$ 表示在历史 $H^{'}$ 下选择行动 $a$ 的概率。
将这些概率相乘，可以得到：
$\Pr_{H'}(\tilde{\mu}) \cdot D_{\tilde{\mu}(a)}(r) \cdot \pi(a)$
通过公式继续展开，可以得到：
$\Pr[H_t = H] = \pi(a) \cdot \Pr[H_{t-1} = H'] \cdot \sum_{\mu \in F} \Pr_{H'}(\mu) \cdot D_{\mu(a)}(r)$
由此可以得出后验概率 $\Pr[\mu = \tilde{\mu} \text{ and } H_t = H]$ ：
$\Pr[\mu = \tilde{\mu} \text{ and } H_t = H] = \frac{\Pr_{H'}(\tilde{\mu}) \cdot D_{\tilde{\mu}(a)}(r)}{\sum_{\mu \in F} \Pr_{H'}(\mu) \cdot D_{\mu(a)}(r)}$
证明中强调，由归纳假设可知，后验分布 $Pr_{H'}$ 不依赖于算法的选择。

这段证明在表明，在给定历史信息 $H^{'}$ 的情况下，对于特定奖励向量 $\tilde{\mu}$ 的后验概率是由其先验概率和观测到的奖励 $r$ 的概率决定的，而这个后验概率与算法的选择无关。这表明了在贝叶斯框架中，后验概率是通过先验知识和当前观测数据来更新的，与具体使用的算法无关。算法的影响会通过它选择行动的策略（ $\pi(a)$ ）来体现。如果这个策略不影响后验分布 $Pr_{H'}$ 的形式，那么可以认为后验分布与算法无关。
在这里插入图片描述
这个推论说的是，当历史 $H^{'}$ 可以通过对时间序列 $[t]$ （这里通常表示从 $1$ 到 $t$ 的整数集合）进行某种排列 $\sigma$ 来从历史 $H$ 得到时，两个历史的概率分布 $Pr_H$ 和 $Pr_{H'}$ 是相同的。换句话说，如果历史 $H^{'}$ 是历史 $H$ 中行动和奖励对的一个置换，那么这两个历史的概率分布是等价的。

这通常意味着概率模型是置换不变的，也就是说，它不在乎行动和奖励对出现的具体顺序，只在乎这些对的内容。这是贝叶斯模型中一个常见的特性，尤其是在处理序列数据时，表明模型的推断不受数据顺序的影响，而只依赖于数据的内容。这样的性质在实际应用中很重要，因为它意味着模型的预测不会因为数据顺序的随机波动而改变，从而具有更强的鲁棒性。

表达式

$\left( \left( a'_{\sigma(t)}, r'_{\sigma(t)} \right) : t \in [T] \right)$
描述了一个序列或历史 $H^{'}$ ，它由时间段 $[T]$ （通常代表从 1 到 T 的整数集合）中每一时刻 $t$ 的行动和奖励对组成。这里的 $\sigma(t)$ 表示一个置换函数，它将时间段 $[T]$ 中的时刻重新排列。这意味着如果 $\sigma$ 是一个置换，那么 $\sigma(t)$ 是 $[T]$ 中某个元素的映射，并且这个映射是一一对应的。

具体来说：

$a'_{\sigma(t)}$ 表示在时间 $\sigma(t)$ 选择的行动，这是通过置换 $\sigma$ 重新排列后的时刻。
$r'_{\sigma(t)}$ 表示与行动 $a'_{\sigma(t)}$ 相关的奖励。

下面，让我们通过一个具体的例子来理解这个表示法：

假设我们有一个时间序列 $[T] = [1, 2, 3, 4]$ ，代表四个连续的时间点。在每个时间点，我们有一个行动和相应的奖励，比如：

在时间 $1$ ，行动是 $a_1$ ，奖励是 $r_1$ 。
在时间 $2$ ，行动是 $a_2$ ，奖励是 $r_2$ 。
在时间 $3$ ，行动是 $a_3$ ，奖励是 $r_3$ 。
在时间 $4$ ，行动是 $a_4$ ，奖励是 $r_4$ 。

这样，原始的历史 $H$ 可以表示为：
$H = \{ (a_1, r_1), (a_2, r_2), (a_3, r_3), (a_4, r_4) \}$

现在，我们定义一个置换 $\sigma$ ，它将时间序列重新排列，比如：
$\sigma(1) = 3, \sigma(2) = 1, \sigma(3) = 4, \sigma(4) = 2$

这个置换 $\sigma$ 告诉我们时间点 $1$ 的行动和奖励现在被移动到了原来时间点 $3$ 的位置，时间点 $2$ 的被移动到了原来时间点 $1$ 的位置，以此类推。

应用这个置换到原始历史 $H$ ，我们得到新的历史 $H^{'}$ ：
$\{ (a_{\sigma(1)}, r_{\sigma(1)}), (a_{\sigma(2)}, r_{\sigma(2)}), (a_{\sigma(3)}, r_{\sigma(3)}), (a_{\sigma(4)}, r_{\sigma(4)}) \}$

将置换 $\sigma$ 的具体值代入，我们得到：
$H' = \{ (a_3, r_3), (a_1, r_1), (a_4, r_4), (a_2, r_2) \}$

这表示，经过置换后，原始的第一个行动和奖励对现在是第二个，第二个变成了第四个，第三个变成了第一个，第四个变成了第三个。

这个新的历史 $H^{'}$ 可以被用来分析在不同时间序列的情况下，某个算法是否会产生不同的结果，或者它的后验分布是否与行动和奖励的顺序无关。如果算法对这种置换不敏感，那么它可能被认为是顺序不变的（即不关心行动和奖励对发生的具体顺序）。
因此， $H^{'}$ 表示的是通过置换 $\sigma$ 得到的一个新的历史，其中行动和奖励的顺序可能与原始历史 $H$ 不同。这样的置换可能用于分析历史顺序对算法性能的影响，或者在某些情况下，验证算法是否对输入数据的顺序敏感。如果一个算法对历史中事件的顺序不敏感，那么即使历史被置换，算法的性能也应该保持不变。
在这里插入图片描述
上述讨论的是在贝叶斯更新的背景下，引理 3.1 不应该被视为理所当然，因为存在某些情况下引理不成立的自然扩展。具体来说，它提出了一个条件，即在任意可观测事件上的条件化。这是在说，当我们有额外的信息（即历史 $H_t$ 属于某个特定集合 $\mathcal{H}$ ）时，我们可能需要更新我们的后验概率分布 $\Pr[\mu \in M \mid H_t \in \mathcal{H}]$ ，这里 $M$ 是参数向量 $\mu$ 的可能值的集合，而 $\mu$ 本身代表了不同行动的真实奖励率。

让我们逐步分解这个说明：

贝叶斯更新：这是一个统计过程，其中我们使用观测到的数据来更新对某个未知参数（在这种情况下是向量 $\mu$ ）的概率理解。
可观测事件的条件化：我们不是在无信息的情况下更新 $\mu$ ，而是在知道一些额外信息的情况下进行更新。这里的额外信息是历史 $H_t$ 属于一个特定集合 $\mathcal{H}$ 的知识。
引理 3.1 的限制：注释指出，引理 3.1 在这种条件化的情况下可能不适用，意味着如果我们有关于 $H_t$ 的额外信息，引理 3.1 提供的结果可能不再有效。
后验分布：给定 $H_t \in \mathcal{H}$ 的事件后，后验分布 $\Pr[\mu \in M \mid H_t \in \mathcal{H}]$ 是指在知道 $H_t$ 属于集合 $\mathcal{H}$ 后， $\mu$ 属于集合 $M$ 的概率。这是一个条件概率，它反映了在给定某些历史信息后，我们对 $\mu$ 的信念如何变化。
对所有 $\subseteq [0, 1]^K$ ：这个条件概率对于所有可能的子集 $M$ （ $M$ 是 $K$ 维单位立方体 $0, 1]^K$ 中的任何子集，这里的单位立方体代表所有参数的可能值都在 $0$ 和 $1$ 之间）都成立。

这个注释强调了在实际应用贝叶斯方法时，我们需要注意到后验分布可能会因为条件化的不同而变化，这种变化是基于我们所拥有的额外信息的。
在这里插入图片描述
上述描述了一个多臂赌博机问题的简单例子，以解释后验分布如何可能依赖于所选择的赌博机算法。这里的多臂赌博机有三个摇臂（或选项） $A = \{a, a', a''\}$ ，每个摇臂对应的回报服从伯努利分布。

上述中给出了以下情景：

存在两个可能的历史： $H = (a, 1)$ 和 $H^{'} = (a^{'}, 1)$ ，分别对应于两个不同的摇臂在一个回合中的选择和回报。
有两个不同的算法， $A L G$ 和 $A L G^{'}$ 。 $A L G$ 算法在这个回合总是确定性地选择摇臂 $a$ ，而 $A L G^{'}$ 算法总是确定性地选择摇臂 $a^{'}$ 。
然后说明，对于 $A L G$ 算法得到的历史 $H$ 的后验分布表示为 $Pr_H$ ，而对于 $A L G^{'}$ 算法得到的历史 $H^{'}$ 的后验分布表示为 $Pr_{H'}$ 。

这个例子说明，在只有一个回合的情况下，不同的算法会导致不同的后验分布，因为每个算法都会选择不同的摇臂，从而观察到不同的结果。这是为了展示后验分布（即在观察到某些数据后对未知参数的概率分布）可能如何依赖于赌博机算法的选择。尽管贝叶斯更新通常被认为是一种“算法无关”的统计方法，但在实际应用中，特别是在涉及序列决策的情况下，所使用的算法可能会影响观察到的数据，从而影响后验分布。
在这里插入图片描述
上述提供了另一个贝叶斯更新的情景，这次是条件于一系列特定子集轮次的历史。具体地，它描述了：

子集轮次的历史（ $S$ -history）：
- 这里讨论的是一个算法在一系列轮次（时间点）的子集 $S$ 上的历史，而不是整个时间序列。
- $S$ 是总时间序列 $[T]$ 的一个子集， $H_S$ 是这个子集中每个时间点 $t$ 上的行动 $a_t$ 和奖励 $r_t$ 的有序组合。
- $H_S = ((a_t, r_t) : t \in S)$ ，这意味着 $H_S$ 是一个有序元组，包含了对于集合 $S$ 中每个 $t$ 的行动和奖励。
可行的 $∣ S ∣$ -历史和后验分布：
- 对于任何可行的这样一个历史 $H$ ，我们可以考虑在已知 $H_S = H$ 事件发生的情况下未知参数 $\mu$ 的后验分布。
- 后验分布被表示为 $\Pr_{H,S}(\mu) := \Pr[\mu \in M | H_S = H]$ ，对于所有 $\subseteq [0, 1]^K$ 。
- 这里的 $M$ 是概率空间 $0, 1]^K$ 中的任意子集，而 $\mu$ 是我们想要推断的未知参数（在多臂赌博机问题中，通常是臂的真实奖励概率）。

上述的目的是展示后验分布的定义可以根据观察到的历史的不同子集而变化。这表明后验分布不仅取决于观测到的数据，还取决于我们选择考虑的数据子集。在实践中，这意味着如果我们只关注特定的一些轮次而忽略其他轮次，我们的推断（关于未知参数 $\mu$ 的后验分布）可能会有所不同。
在这里插入图片描述
进一步解释，这种分布可能还依赖于赌博机算法。考虑一个具有伯努利回报的问题实例，有两个摇臂 $A = \{a, a'\}$ 和两轮游戏。仅关注第二轮发生的情况，设 $S = \{2\}$ 。现在有两种算法 $A L G$ 和 $A L G^{'}$ ，它们在第一轮基于收到的回报选择不同的摇臂。如果在第一轮收到回报 1，则在第二轮选择摇臂 $a$ （对于 $A L G$ ）或摇臂 $a^{'}$ （对于 $A L G^{'}$ ）。然后，后验分布 $\Pr_{H_1}(\mu)$ 分别在算法 $A L G$ 和 $A L G^{'}$ 下考虑额外条件 $H_1 = (a, 1)$ 和 $H_1 = (a', 1)$ 。

简而言之，上述说明在多臂赌博机问题中，后验概率分布不仅取决于观察到的历史数据，还可能取决于决策过程中使用的算法。即使是在同样的历史观测下，不同的算法可能导致不同的后验概率分布，因为它们基于不同的行为策略来做出决策。

3.1.3 Posterior as a new prior

在这里插入图片描述
上述描述了贝叶斯更新的一个过程，这个过程可以分为两个步骤来完成，也可以作为一个单步更新来处理。这里是这段文本的具体解释：

贝叶斯更新作为连续过程：后验概率分布 $Pr_H$ 可以作为下一个贝叶斯更新的先验。这里提到了一个可行的 $(t + t^{'})$ -历史，这意味着考虑了 $t$ 轮和 $t^{'}$ 轮的历史的组合。这个组合历史用 $\oplus H'$ 表示，其中 $H$ 是原始的历史， $H^{'}$ 是新增的历史。
历史的组合：历史 $H$ 和 $H^{'}$ 被组合在一起，形成一个更长的历史。 $H$ 包括了前 $t$ 轮的历史，而 $H^{'}$ 包括了 $S$ 集合中的轮次，其中 $S$ 是 $\ [ t ] [t + t'] \backslash [t]$ 的集合，也就是除去前 $t$ 轮之外的额外 $t^{'}$ 轮。
两步更新过程：贝叶斯更新可以分为两步：
- 第一步是条件于 $H$ 并且得到后验分布 $Pr_H$ 。
- 第二步是在已经得到 $Pr_H$ 的基础上，进一步条件于 $H^{'}$ ，用 $Pr_H$ 作为新的先验来更新。
单步更新与两步更新的等价性：上述声明通过上述两步更新过程得到的后验分布与单步更新的后验分布是等价的。也就是说，先对 $H$ 更新，然后对 $H^{'}$ 更新，与直接对 $\oplus H'$ 更新是一样的。这在公式中表示为 $\Pr_{H \oplus H'} = (\Pr_H)_{H'}$ 。

这个过程展示了贝叶斯更新的一个重要特性：它的递归性质。你可以先用一些数据更新你的信念（先验分布），得到一个新的信念（后验分布），然后用这个新的信念作为下一步更新的起点。这个特性在处理序列数据或者在一个动态环境中逐步更新信念时特别有用。
在这里插入图片描述

引理 3.4 说明了如果有一个可行的 $t^{'}$ -历史 $H^{'}$ ，那么对于所有的 $\subseteq [0, 1]^K$ ，后验概率 $\Pr_{H\oplus H'}(\mu)$ ，可以表示为 $Pr_H)_{H'}$ 。换言之，给定历史 $H$ 的后验分布 $Pr_H$ 可以作为计算连接后历史 $\oplus H'$ 的后验分布的先验分布。这个后验概率表达为：
$\Pr_{H\oplus H'}(M) = \Pr[\mu \in M | H_t' = H'], \quad \text{其中} \quad \mu \sim \Pr_H$

上述中的“take-away”是 $Pr_H$ 包含了从历史 $H$ 中获得的所有相关信息，特别是在涉及均值奖励时。这意味着一旦计算出 $Pr_H$ ，就不再需要考虑先验分布 $\Pr$ 和历史 $H$ 本身，而只需要 $Pr_H$ 就足够了。

证明这个引理可能有一些微妙之处，因为它依赖于 $\oplus H')$ -诱导的算法作为主要论点，且仔细应用了引理 3.1 来拓展到任意的赌博机算法。这表明，一旦计算了某个历史 $H$ 下的后验分布，就可以用它来推导出在任何扩展历史 $\oplus H'$ 下的后验分布，这在贝叶斯框架内是一个常见的做法。
在这里插入图片描述

引理 3.4 声明如果有一个可行的历史 $H^{'}$ ，那么后验分布 $\Pr_{H \oplus H'}$ 等于更新后的后验 $Pr_H)_{H'}$ 。更明确地说，这意味着对于所有 $\subseteq [0, 1]^K$ ，我们有：
$\Pr_{H \oplus H'}(\mu = \tilde{\mu}) = \Pr[\mu = \tilde{\mu} | H_t' = H'].$
主要的结论是 $Pr_H$ 包含了关于历史 $H$ 的所有相关信息，至少在均值回报上是如此。这意味着一旦 $Pr_H$ 被计算出来，你就可以用它作为更新后的信念来推断 $\mu$ 的分布，而不需要回溯到原始的先验或历史 $H$ 。
这个引理的证明依赖于由 $\oplus H'$ 连接引导的算法，并且仔细应用另一个引理（引理 3.1）来扩展其适用性到任意的赌博机算法。
在另一个部分中，它描述了这个引理的证明方法，针对一个单一集合 $\{\tilde{\mu}\}$ ，对于任意给定的向量 $\tilde{\mu} \in F$ 。它使用了由 $\oplus H'$ 连接引导的算法，并考虑了两个事件： $E_t = \{H_t^{ALG} = H\}$ 和 $E_S = \{H_S^{ALG} = H'\}$ 。
证明的目标是表明在特定 $S$ -历史给定的情况下 $\mu$ 等于 $\tilde{\mu}$ 的后验概率等于在 $t$ -历史给定的情况下 $\mu$ 等于 $\tilde{\mu}$ 的概率，表示为：
$\Pr_{H \oplus H'}(\mu = \tilde{\mu}) = \Pr[\mu = \tilde{\mu} | H_S^{ALG} = H'].$
证明关注在特定算法 $A L G$ 下，时间点 $t$ 以及子集 $S$ 相关的历史事件。

在这里插入图片描述

上述提供了一个贝叶斯更新的概率计算的证明过程，其中用 $Q$ 来简化写法，代表了在历史 $H$ 下关于奖励向量 $\mu$ 的后验分布 $\Pr[\cdot | H]$ 。下面是每个步骤的解释：

$Q[\mu = \tilde{\mu}] = \Pr[\mu = \tilde{\mu} | E_t]$ :
这一步定义了 $Q$ 作为给定事件 $E_t$ 下 $\mu$ 等于 $\tilde{\mu}$ 的概率。这里 $E_t$ 代表在时间 $t$ 发生的某个事件。
$Q[E_S | \mu = \tilde{\mu}] = \Pr[E_S | \mu = \tilde{\mu}, E_t]$ :
这一步计算了在 $\mu$ 等于 $\tilde{\mu}$ 并且事件 $E_t$ 发生的条件下，事件 $E_S$ 发生的概率。
$Q[E_S \text{ and } \mu = \tilde{\mu}] = Q[\mu = \tilde{\mu}] \cdot Q[E_S | \mu = \tilde{\mu}]$ :
这里用到了概率的乘法法则，它说明了两个事件同时发生的概率等于其中一个事件发生的概率乘以在该事件发生的条件下另一个事件发生的概率。
接下来，等式被拆解为 $\Pr[\mu = \tilde{\mu} | E_t] \cdot \Pr[E_S | \mu = \tilde{\mu}, E_t]$ :
这实际上是将 $Q$ 替换为 $\Pr[\cdot | E_t]$ 和 $\Pr[\cdot | \mu = \tilde{\mu}, E_t]$ ，因为 $Q$ 的定义正是这样。
最终得到 $\Pr[E_S \text{ and } \mu = \tilde{\mu} | E_t]$ :
这是通过乘法法则得出的两个事件同时发生的概率，这里考虑了事件 $E_t$ 已经发生的条件。

这个过程表明，我们可以通过将后验概率 $\Pr[\cdot | H]$ 分解为多个条件概率的乘积，来计算在给定算法和历史信息下，某个事件和参数取特定值同时发生的概率。这是贝叶斯推断的核心概念，它允许我们在观察到新信息时更新我们对不确定性的认识。
在这里插入图片描述
上述展示了一个贝叶斯推断过程中的一个关键步骤：总结或者积累概率。这里使用了 $Q$ 来代表给定历史 $H$ 下的后验概率。具体的步骤是：

首先，我们有一个关于事件 $E_S$ 发生的概率的表达式 $Q[E_S]$ ，它是通过对所有可能的 $\mu$ 值的后验概率 $Q[E_S \text{ and } \mu = \tilde{\mu}]$ 求和得到的。
每一项 $Q[E_S \text{ and } \mu = \tilde{\mu}]$ 表示在 $\mu$ 等于 $\tilde{\mu}$ 的条件下事件 $E_S$ 发生的后验概率。这里， $\tilde{\mu}$ 是向量 $\mu$ 的一个特定值，而 $F$ 是 $\mu$ 所有可能值的集合。
接着，这个累积求和变成了 $\sum_{\tilde{\mu} \in F} \Pr[E_S \text{ and } \mu = \tilde{\mu} | E_t]$ ，这是在事件 $E_t$ 发生的条件下， $E_S$ 事件和 $\mu$ 等于 $\tilde{\mu}$ 同时发生的概率的总和。
最后，由于所有可能的 $\mu$ 值的集合被完全覆盖，这个总和简化为 $Pr[E_S | E_t]$ ，即在事件 $E_t$ 发生的条件下事件 $E_S$ 发生的概率。

综上所述， $Q[E_S]$ 代表在历史 $H$ 下，事件 $E_S$ 发生的概率。通过对所有可能的 $\mu$ 值求和，我们实际上计算了所有可能结果的概率总和，这是一个完整的概率空间，即所有可能的 $\mu$ 值。这表明了，在给定历史 $H$ 和事件 $E_t$ 的情况下，事件 $E_S$ 发生的概率与 $\mu$ 的具体值无关，而是依赖于所有可能 $\mu$ 值的集合。这也说明了为何后验概率可以作为未来贝叶斯更新的先验：它包含了当前可用信息的全部内容。

首先，定义了一个辅助函数 $Q$ 以简化概率表达式。它代表在给定历史 $H$ 的条件下参数 $\mu$ 的后验概率分布。
然后，公式
$Q[\mu = \tilde{\mu} | E_S] = \frac{Q[\mu = \tilde{\mu} \text{ and } E_S]}{Q[E_S]}$
是在事件 $E_S$ 发生的条件下，参数 $\mu$ 等于 $\tilde{\mu}$ 的条件概率。
接下来，通过贝叶斯定理，这个条件概率可以重新写为
$\frac{\Pr[E_S \text{ and } \mu = \tilde{\mu} | E_t]}{\Pr[E_S | E_t]} = \frac{\Pr[\mu = \tilde{\mu} | E_t \text{ and } E_S]}{\Pr[E_S | E_t]}$
这里 $\Pr[E_S \text{ and } \mu = \tilde{\mu} | E_t]$ 是在 $E_t$ 发生的条件下， $E_S$ 事件和 $\mu = \tilde{\mu}$ 同时发生的概率；而 $Pr[E_S | E_t]$ 是在 $E_t$ 发生的条件下，事件 $E_S$ 发生的概率。
最后这个表达式简化为
$\Pr[\mu = \tilde{\mu} | E_t \text{ and } E_S]$
这表示在事件 $E_t$ 和 $E_S$ 都发生的条件下，参数 $\mu$ 等于 $\tilde{\mu}$ 的概率。

这个计算过程的物理意义在于，它说明了如何使用观察到的数据（事件 $E_t$ 和 $E_S$ ）来更新我们关于一个未知参数（这里是 $\mu$ ）的知识。通过条件化不同的事件，我们可以细化我们对参数可能值的信念。这是贝叶斯统计方法的核心，它允许我们在不确定性中做出更有根据的推断。在多臂赌博机问题中，这个过程特别重要，因为它可以帮助我们理解在特定算法和历史选择下，各个动作（或“臂”）的潜在回报。
在这里插入图片描述
上述是在讨论如何将特定算法产生的后验分布推广到任意赌博机算法。让我们逐步理解这里的内容：

从特定算法转换到任意算法: 上述指出，要证明某个结论对于任意赌博机算法都成立，可以利用引理 3.1。
引理 3.1 的应用: 引理 3.1 被应用了两次。首次应用确认了后验分布 $\Pr_{H \oplus H'}(\mu = \tilde{\mu})$ 不依赖于赌博机算法。这表明，无论使用哪种算法，只要它产生了相同的历史信息 $H$ 和 $H^{'}$ ，它关于 $\mu$ 的后验分布都是一样的。
引理 3.1 的第二次应用: 第二次应用考虑了先验分布 $Pr_H$ 和可行的 $t^{'}$ -历史 $H^{'}$ 。这里定义了一个新算法 $A L G^{'}$ ，它由历史 $H^{'}$ 引导产生。
等式 (3.9) 的推导: 展示了如下等式：
$\Pr[\mu = \tilde{\mu} | H^{ALG}_S = H'] = \Pr[\mu = \tilde{\mu} | H^{ALG'}_{t'} = H']$
这表明，无论是哪个算法产生的历史，只要这个历史是 $H^{'}$ ，它关于 $\mu$ 等于 $\tilde{\mu}$ 的后验概率是相同的。
推广到任意算法: 这个结果表明，对于任意赌博机算法，只要它们在同样的历史上产生后验分布，这个后验分布都是相同的。这是一个强大的结果，因为它说明了在贝叶斯框架下，后验分布的形式只与观测到的历史有关，而与产生这些历史的算法无关。

总结一下，上述在数学上证明了在贝叶斯框架中，后验分布是如何仅仅依赖于历史信息而非特定的赌博机算法。因为它意味着一旦我们有了历史信息，我们就可以用它来更新我们对于未知参数的信念，而无需关心这些信息是如何获得的。

3.1.4 Independent priors

在这里插入图片描述
上述讨论贝叶斯更新在独立先验条件下的简化情况。在多臂赌博机问题中，"独立先验"指的是不同摇臂的奖励概率是相互独立的，即一个摇臂的奖励分布不会影响其他摇臂的奖励分布。

关键点如下：

当先验分布 $\Pr$ 被称为独立时，这意味着对于所有摇臂 $\in A$ ，奖励概率 $\mu(a)$ 是相互独立的随机变量。这里 $\mu(a)$ 表示选择摇臂 $a$ 时获得奖励的概率。
对于摇臂 $a$ ，定义了 $S_a$ 作为在历史 $H$ 中选择摇臂 $a$ 的所有轮次的集合。
摇臂 $a$ 在历史 $H$ 中的相关部分被定义为一个有序元组，记为 $p ro j (H; a)$ ，这个元组包含了所有 $S_a$ 中的轮次对应的行动和奖励。

简单来说，上述描述了如何将整个历史 $H$ 分解为针对每个摇臂的历史。这样做的目的是为了利用摇臂之间的独立性来简化分析和计算过程。在实际应用中，如果我们知道不同摇臂的结果是相互独立的，那么我们可以单独更新每个摇臂的奖励概率，而不需要考虑它们之间的相互作用。这使得计算过程更加高效，因为我们可以分别处理每个摇臂的信息，而不是处理整个历史的复杂性。
在这里插入图片描述
首先，考虑一个摇臂 $a$ 的历史，即在不同回合选择摇臂 $a$ 并得到的奖励。这个历史可以从总历史 $H$ 中提取出来，形成一个“投影历史”，只包含关于摇臂 $a$ 的信息。这种投影实际上是在分析每个摇臂独立的表现，而不是将所有摇臂的表现混合在一起。

定义 $Pr_H^a$ 作为摇臂 $a$ 的后验分布。这个后验分布是基于投影历史 $\text{proj}(H; a)$ 来计算的，它反映了在已知摇臂 $a$ 被选中的情况下，奖励的分布情况。

接下来，强调了这个后验分布 $Pr_H^a$ 不依赖于使用的赌博机算法。这意味着，不论你使用什么策略或算法来选择摇臂，只要这些选择的历史相同，摇臂 $a$ 的奖励分布的后验概率就会是一样的。这是因为“独立先验”假设使得每个摇臂可以独立更新其概率分布，不受其他摇臂影响。

最后， $Pr_H^a(M_a)$ 表示在给定摇臂 $a$ 的投影历史下，奖励 $\mu(a)$ 落在某个子集 $M_a$ 中的概率。这是一个针对特定摇臂的更新概率，它提供了对摇臂 $a$ 表现的更细致的理解。

通过这种方式，可以单独考虑每个摇臂的表现，而不是将所有摇臂的结果混为一谈，从而可以更准确地估计每个摇臂的效果，并据此做出更明智的决策。这在实践中是非常有用的，尤其是当赌博机问题涉及到大量摇臂时，因为它允许每个摇臂独立进行优化。

让我们通过一个例子来解释这些概念。

假设我们正在玩一个简单的多臂赌博机游戏，这个游戏有三个摇臂，分别是 $a$ 、 $b$ 和 $c$ 。每个摇臂被拉动时，都会根据某个概率分布给出奖励。我们想要了解每个摇臂给出正奖励的概率。

独立先验: 我们假设每个摇臂给出奖励的概率是相互独立的。即摇臂 $a$ 的表现不会影响摇臂 $b$ 或摇臂 $c$ 的表现。
历史记录: 我们有一个历史记录 $H$ ，它记录了每次我们选择某个摇臂和得到的奖励。比如说：
- 第一轮，我们选择了摇臂 $a$ ，得到奖励 $1$ （正奖励）。
- 第二轮，我们选择了摇臂 $b$ ，没有得到奖励（ $0$ ）。
- 第三轮，我们再次选择了摇臂 $a$ ，这次没有得到奖励（ $0$ ）。
- 以此类推…
投影历史: 现在，我们对摇臂 $a$ 的历史感兴趣。我们将从总历史 $H$ 中提取出与摇臂 $a$ 相关的所有信息，忽略其他摇臂的信息。这就形成了摇臂 $a$ 的投影历史 $\text{proj}(H; a)$ ，它可能看起来像这样：
- 第一轮，摇臂 $a$ ，奖励 $1$ 。
- 第三轮，摇臂 $a$ ，奖励 $0$ 。
后验分布: 基于投影历史 $\text{proj}(H; a)$ ，我们可以计算摇臂 $a$ 给出正奖励的后验概率。这个概率反映了在我们的历史记录中，选择摇臂 $a$ 后得到正奖励的频率。
独立性: 由于我们的先验假设是摇臂之间相互独立，摇臂 $a$ 的后验概率仅基于与摇臂 $a$ 相关的历史信息，不受摇臂 $b$ 或摇臂 $c$ 的历史信息影响。

在这个例子中，即使我们改变了选择摇臂的算法（比如改变我们选择摇臂的策略），只要我们得到的关于摇臂 $a$ 的历史信息相同，摇臂 $a$ 的后验概率也将保持不变。这是因为在贝叶斯框架下，更新后验概率所需的信息完全来自于观察到的数据，与选择数据的过程（即算法）无关。
在这里插入图片描述
引理 3.5 提出了一个关于独立先验的形式化陈述，在贝叶斯推断的背景下，特别是在多臂赌博机问题中。这里的独立先验假设指的是，每个摇臂（代表不同的行动或决策选项）的奖励概率是互相独立的。在数学上，独立性意味着这些随机变量的联合概率分布等于它们各自概率分布的乘积。

在给定的情景下，对于每个摇臂 $\in A$ ，都有一个概率子集 $M_a \subseteq [0,1]$ 。 $M_a$ 可以理解为对于摇臂 $a$ 而言，某个特定的奖励概率（或奖励概率的范围）的集合。

引理表达了这样一个结果：

$\Pr_H \left( \bigcap_{a \in A} M_a \right) = \prod_{a \in A} \Pr_H^a (M_a)$

这个公式的含义是：

$\Pr_H \left( \bigcap_{a \in A} M_a \right)$ ：表示所有摇臂 $\in A$ 的奖励概率同时落在各自的 $M_a$ 中的联合概率。这个是说，在所有摇臂上看，每个摇臂的奖励概率都独立地落在它们各自的概率范围内的概率。
$\prod_{a \in A} \Pr_H^a (M_a)$ ：表示每个摇臂 $a$ 的奖励概率落在 $M_a$ 中的概率的乘积。由于独立性，每个摇臂的概率可以单独计算，然后将它们的概率相乘以得到所有摇臂奖励概率满足条件的总概率。

简单来说，这个引理说明了如果你知道每个摇臂独立的奖励概率，你可以通过简单地将这些概率相乘来计算所有这些摇臂同时达到特定奖励概率范围的总概率。这是独立性在概率论中的一个基本属性，也是贝叶斯推断中的一个关键特点，它允许我们将复杂问题分解成更简单的部分

这个引理说明了如果你知道每个摇臂独立的奖励概率，你可以通过简单地将这些概率相乘来计算所有这些摇臂同时达到特定奖励概率范围的总概率。这是独立性在概率论中的一个基本属性，也是贝叶斯推断中的一个关键特点，它允许我们将复杂问题分解成更简单的部分。
在这里插入图片描述
上述提供了一个贝叶斯更新的证明，其中涉及独立性的条件。在多臂赌博机问题中，每个摇臂的奖励分布被视为相互独立的随机变量。下面是这段证明的解释：

首先，确定了两个重要的事件集合： $\mathcal{E}_a$ 代表摇臂 $a$ 的奖励值落在某个特定区间 $M_a$ 内的事件； $\mathcal{E}^H_a$ 是指在考虑历史 $H_t$ 时摇臂 $a$ 的投影历史与摇臂 $a$ 在整个历史 $H$ 中的投影历史相同的事件。
让我们通过一个例子来理解这两个事件：

假设你正在参与一个实验，其中有多个不同的测试（我们称之为"摇臂"），每个测试都有一个概率分布，决定了你是否能观察到一个正结果（比如一个正面的实验结果）。每个摇臂 $a$ 的结果概率用 $\mu(a)$ 表示，并且这些摇臂是独立的。

事件 $\mathcal{E}_a$ ：考虑一个实验场景，其中 $\mathcal{E}_a = \{\mu(a) \in M_a\}$ 。这个事件是指，摇臂 $a$ 的结果概率落在了特定的区间 $M_a$ 内。例如，如果 $M_a$ 是 [0.4, 0.6]，那么 $\mathcal{E}_a$ 就是观察到摇臂 $a$ 的结果概率在 40% 到 60% 之间的事件。
事件 $\mathcal{E}^H_a$ ：这个事件代表历史记录 $H$ 在摇臂 $a$ 上的投影与 $H_t$ （某个时间点 $t$ 的历史）在摇臂 $a$ 上的投影相同。这意味着至时间点 $t$ 为止，在 $a$ 上观察到的结果与整个历史中的结果是一致的。在我们的实验例子中，这可能意味着到目前为止在摇臂 $a$ 上观察到的所有结果与过去观察到的结果相同，没有新的变化或偏离。

将这两个事件结合起来，如果你在摇臂 $a$ 上有一个特定的结果概率区间 $M_a$ ，并且你到时间点 $t$ 为止的观察与整个观察历史相一致，那么你可以说，对于摇臂 $a$ ，这两个条件是同时成立的。在多臂赌博机问题中，这可以帮助你确定每个摇臂是否继续表现如之前的历史所预期的那样，以及它们的表现是否在你期望的概率范围内。

令 $\mathcal{M}$ 为所有摇臂 $\in A$ 的事件集合 $M_a$ 的交集。这个集合包含了所有摇臂的奖励值都落在其相应区间内的事件。
接着，我们看到了联合概率 $\Pr[H_t = H \text{ and } \mu \in \mathcal{M}]$ ，它表示在特定历史 $H_t$ 下，所有摇臂的奖励值都落在它们各自的区间 $M_a$ 内的概率。
由于摇臂之间的奖励分布是独立的，我们可以将这个联合概率写作所有摇臂的事件 $\mathcal{E}_a$ 和 $\mathcal{E}^H_a$ 的交集事件发生概率的乘积：
$\Pr[H_t = H \text{ and } \mu \in \mathcal{M}] = \prod_{a \in A} \Pr[\mathcal{E}_a \cap \mathcal{E}^H_a].$
然后，利用条件概率的定义，我们可以将这个联合概率除以边缘概率 $Pr[H_t = H]$ 来得到条件概率 $\Pr[\mu \in \mathcal{M} | H_t = H]$ 。
最终，通过将所有摇臂的独立后验分布 $\Pr^a_H(M_a)$ 相乘，我们得到了所有摇臂的奖励值同时落在各自区间内的总概率：
$\Pr_H(\mathcal{M}) = \prod_{a \in A} \Pr^a_H(M_a).$

这个等式说明了如果摇臂的奖励分布是独立的，我们可以通过单独计算每个摇臂奖励落在其特定区间内的概率，并将它们相乘来得到所有这些条件同时发生的概率。这是独立随机变量在概率论中的一个基本特性，也体现了贝叶斯更新中的乘积规则。在实践中，这意味着我们可以单独更新每个摇臂的概率分布，而不需要担心它们之间的相互作用。

让我们用一个具体的例子来理解这个公式。假设你在一个嘉年华游戏中，有三个独立的游戏摊位，分别标记为摇臂 $a$ 、 $b$ 和 $c$ 。每个摊位的游戏都有一定的概率赢得奖品。为了简化，我们假设每个摇臂有赢得奖品（正奖励）的概率 $p_a$ 、 $p_b$ 和 $p_c$ 。这些概率是独立的，意味着赢得一个摊位的奖品不影响在另一个摊位上的胜率。

现在，假设我们有一个目标奖品的集合，我们想要知道在每个摊位上同时赢得这些特定奖品的概率。每个摊位赢得特定奖品的概率集合可以分别表示为 $M_a$ 、 $M_b$ 和 $M_c$ 。

根据引理 3.5 的说法：

$\Pr_H \left( \bigcap_{a \in \{a, b, c\}} M_a \right) = \prod_{a \in \{a, b, c\}} \Pr_H^a (M_a)$

这个公式的含义是：

左边的 $\Pr_H \left( \bigcap_{a \in \{a, b, c\}} M_a \right)$ 表示在所有摊位（ $a$ 、 $b$ 和 $c$ ）上同时赢得属于 $M_a$ 、 $M_b$ 和 $M_c$ 的奖品的联合概率。
右边的 $\prod_{a \in \{a, b, c\}} \Pr_H^a (M_a)$ 是每个摊位上赢得其对应奖品集合的概率的乘积。

例如，如果摊位 $a$ 赢得奖品的概率为 $0.5$ （ $p_a$ ），摊位 $b$ 的为 $0.3$ （ $p_b$ ），摊位 $c$ 的为 $0.2$ （ $p_c$ ），并且这些事件是独立的，那么同时在三个摊位上赢得奖品的概率就是 $0.5 \times 0.3 \times 0.2 = 0.03$ 或 3%。

这个例子说明了如何利用独立性假设来简化联合概率的计算。在实际应用中，例如在临床试验或金融投资组合优化中，这种方法允许我们将复杂问题分解为更简单的、独立处理的子问题。

3.2 Algorithm specification and implementation

在这里插入图片描述
上述s描述了一个贝叶斯多臂赌博机算法——汤普森抽样（Thompson Sampling）。这个算法的基本思想非常直观：在每一轮，算法会尝试每个摇臂，并根据已有的历史数据来更新每个摇臂是最佳摇臂的后验概率，然后在下一轮中根据这些概率来选择摇臂。下面是这个算法的具体步骤：

观察历史: 在每一轮 $t$ ，算法观察到当前的历史 $H_{t-1}$ ，这是一个合理的历史序列，包含了前 $t - 1$ 轮的所有动作和奖励信息。
更新概率: 算法计算后验概率 $p_t(a | H)$ ，这是在已知历史 $H_{t-1}$ 的情况下，摇臂 $a$ 在轮 $t$ 是最佳摇臂的概率。这里，“最佳”意味着在这一轮中选择摇臂 $a$ 会得到最好的结果。
选择摇臂: 然后算法独立地从这个后验概率分布中抽取一个摇臂 $a_t$ 。这个过程类似于根据每个摇臂是最佳摇臂的概率来“投票”，概率越高的摇臂被选中的机会就越大。

汤普森抽样算法的优点在于它能够平衡探索（选择那些还没有充分测试的摇臂）和开发（选择那些已知表现良好的摇臂）之间的权衡。通过不断更新后验概率，并基于这些概率做出选择，算法能够在实验过程中逐渐向更有可能给出正奖励的摇臂倾斜，同时仍然给予那些潜力未知摇臂一定的测试机会。
在这里插入图片描述
上述描述了汤普森抽样（Thompson Sampling）算法的另一种表述方式。这种表述更加直观地体现了贝叶斯更新的过程。下面是这个表述的解释：

观察历史信息: 与之前的描述一样，算法在每一轮 $t$ 观察到历史 $H_{t-1}$ ，它包含了到目前为止所有的行动和相应的奖励信息。
抽样奖励向量: 算法从后验分布 $Pr_{H}$ 中抽样出一个奖励向量 $\mu_t$ 。这个向量包含了对于每个摇臂期望奖励的估计，这个估计是基于到目前为止观察到的数据计算出的。对于每个摇臂，这个奖励向量的分量代表了在当前历史信息下该摇臂预期奖励的概率分布。
选择最佳摇臂: 根据抽样得到的奖励向量 $\mu_t$ ，算法会选择预期奖励最高的摇臂。换言之，它会选择在这一轮中具有最大预期奖励的摇臂作为最佳摇臂。

这种表述方式更加贴近实际操作：你首先基于当前的知识（历史数据）来估计每个摇臂的奖励分布，然后你抽样这些分布以决定哪个摇臂有最大的期望奖励，最后选择那个摇臂进行实际操作。这种方法强调了利用后验分布来直接抽样奖励估计，而不是像先前那样先计算每个摇臂被选为最佳摇臂的后验概率。

这个过程本质上与原始的汤普森抽样算法相同，因为在两种情况下你都是基于历史信息来更新你对每个摇臂奖励的信念，并且都是在每一轮中选择最有可能给出最好结果的摇臂。这个替代的算法表述只是将原本隐含的抽样步骤显式化了。

在这里插入图片描述
上述描述了在有独立先验条件下的汤普森抽样（Thompson Sampling）算法。让我们一步一步来理解它。

首先，引理 3.7 声明了对于每一轮 $t$ ，选中的摇臂 $a_t$ 和 $\hat{a}_t$ 是在给定历史 $H_t$ 条件下分布相同的。这里的历史 $H_t$ 包括了到目前为止所有轮次的选择和结果信息。

算法中的步骤如下：

观察历史: 在每一轮 $t$ ，算法观察到历史 $H_{t-1}$ ，这是包含了到前一轮为止所有选择和结果的信息。
独立抽样奖励向量: 对于每一个摇臂 $a$ ，算法从该摇臂的后验分布 $\Pr^a_{H}$ 中独立抽样一个奖励向量 $\mu_t(a)$ 。这个向量是基于目前为止关于摇臂 $a$ 的信息计算出的奖励的期望值。
选择最佳摇臂: 根据抽样得到的每个摇臂的期望奖励 $\mu_t(a)$ ，算法选择期望奖励最大的摇臂进行下一次操作。

在有独立先验的情况下，这个算法简化了计算过程，因为每个摇臂的后验分布可以独立计算，而不需要考虑其他摇臂的分布。这与前面讨论的汤普森抽样算法相符，只是这里直接对每个摇臂的奖励向量进行了抽样，而不是先计算摇臂被选为最佳摇臂的概率。

总的来说，这个算法强调了在每一轮中，基于每个摇臂的独立后验分布来做出决策，这种方式既直观又效率高，特别是在先验分布独立的假设下。这样可以更快地确定哪个摇臂在当前轮次中最可能给出最好的结果，并据此进行选择。
上述三个算法描述都是关于汤普森抽样（Thompson Sampling），它们之间的主要区别在于表述方式和对独立性假设的利用。让我们逐一分析。

基本的汤普森抽样:
- 这个版本的算法是基础形式，它不显式假设独立先验。
- 在每一轮 $t$ ，算法更新每个摇臂 $a$ 被认为是最佳摇臂的后验概率 $p_t(a | H)$ ，这是基于到目前为止的历史信息 $H$ 。
- 然后根据这些后验概率分布来随机选择一个摇臂。
汤普森抽样的直观表述:
- 这个版本的算法提供了一个更直观的操作描述，它说明了算法是如何直接从后验分布中抽样奖励向量 $\mu_t$ ，然后选择最佳摇臂的。
- 这种表述方式更接近于实际实施过程，便于理解算法如何在每一轮中基于最新的历史信息来做出决策。
有独立先验的汤普森抽样:
- 当假设独立先验时，算法进一步简化，因为每个摇臂的后验分布可以独立计算。
- 在每一轮中，算法为每个摇臂独立抽样一个奖励向量 $\mu_t(a)$ ，然后选择具有最大期望奖励的摇臂。
- 这种算法利用了独立先验来简化计算，并且假设不同摇臂的奖励分布不相互影响。

联系:
所有这三种表述实际上描述的是同一种算法：汤普森抽样。它们的核心思想是相同的——利用贝叶斯推断来更新对每个摇臂效果的信念，并基于这些信念来做出选择。所有版本的算法都在每一轮中，基于当前的历史数据，尝试选择最有可能给出最佳结果的摇臂。不同的表述突出了不同的算法实现细节或优化。

在基本形式中，算法关注于如何计算每个摇臂是最佳摇臂的概率，并根据这些概率来选择摇臂。
在直观表述中，算法通过抽样后验分布中的奖励向量来简化选择过程，使其更加符合实际的执行步骤。
在有独立先验假设的情况下，算法通过独立计算每个摇臂的后验分布来进一步简化过程，这使得算法在计算上更加高效。

尽管表述不同，但所有这些算法都是汤普森抽样的变体，目的都是为了利用贝叶斯方法有效地解决多臂赌博机问题。在实际应用中，选择哪一种表述形式取决于具体情况，例如可用的计算资源、对算法直观理解的需求，以及是否有独立先验的假设。

在这里插入图片描述
上述描述了在汤普森抽样算法中计算后验概率的计算方面，特别是指出了从数学上定义良好的算法可能在计算上是低效的。具体的后验概率计算方法如下：

后验概率 $\Pr_H(\mu = \hat{\mu})$ 表示在已知历史 $H_t = H$ 的情况下，摇臂的真实奖励概率向量 $\mu$ 等于某个特定值 $\hat{\mu}$ 的概率。根据贝叶斯定理，这个概率可以通过下面的公式计算得出：

$\Pr_H(\hat{\mu}) = \frac{\Pr(\hat{\mu}) \cdot \Pr[H_t = H | \mu = \hat{\mu}]}{\sum_{\mu' \in F} \Pr(\mu') \cdot \Pr[H_t = H | \mu = \mu']}$

这个公式描述的是如何在贝叶斯统计框架下，根据已知历史信息来更新对摇臂奖励概率的估计，也就是后验概率。在物理意义上，这代表了在给定先前的实验结果后，我们对摇臂真实效能的信念有多强。

公式中的各部分有以下物理意义：

$\Pr(\hat{\mu})$ ：表示在实验开始之前，我们对摇臂奖励概率的初始猜测或信念。这是先验概率，它不依赖于观察到的数据。
$\Pr[H_t = H | \mu = \hat{\mu}]$ ：表示如果摇臂的真实奖励概率确实是 $\hat{\mu}$ ，那么我们观察到当前的历史信息 $H$ 的可能性有多大。这是条件概率，它将先验信念与观察到的数据相结合。
分母中的求和：是对所有可能的奖励概率向量进行计算，确保后验概率是归一化的。这个求和保证了我们的后验概率分布在所有可能的奖励概率向量上的总概率为 1，这是概率论中的一个基本要求。
$\Pr_H(\hat{\mu})$ ：这是后验概率，它反映了在考虑了实验到目前为止的所有历史信息后，我们相信摇臂的奖励概率是 $\hat{\mu}$ 的程度。如果这个概率高，说明给定的历史数据与假设的奖励概率 $\hat{\mu}$ 更为匹配。

在实际应用中，比如在临床试验中确定最佳治疗方案或在在线广告中选择最佳广告策略时，这个后验更新过程允许决策者利用最新的数据来持续改进他们的决策模型。
这个计算过程涉及到遍历所有可能的奖励概率向量 $\mu'$ （集合 $F$ 中的元素），计算每个 $\mu'$ 对应的先验概率和条件概率的乘积，然后将这些乘积求和。这个求和过程作为归一化常数，确保了后验概率分布是有效的概率分布。

计算上的低效之处在于，如果奖励概率向量的可能值很多，那么这个求和计算将涉及大量的运算，特别是在每一轮都要进行更新的情况下。在实践中，通常会寻找计算上更高效的方法来近似这个后验概率，例如通过采样或使用特定的分布族来简化计算。
在这里插入图片描述
上述讨论了汤普森抽样算法中计算后验概率和抽样概率的计算复杂度。

条件概率的计算复杂度：计算给定 $\mu = \hat{\mu}$ 时历史数据 $H_t = H$ 出现的条件概率 $\Pr[H_t = H | \mu = \hat{\mu}]$ 所需的时间是 $\cdot |F|)$ 。这里 $∣ F ∣$ 是所有可能奖励向量 $\hat{\mu}$ 的数量， $t$ 是历史数据的长度。复杂度是线性的，依赖于历史长度和可能奖励向量的数量。
后验概率的计算复杂度：计算后验概率 $\Pr_H(\cdot)$ 和抽样概率 $p_t(\cdot | H)$ 的时间也是 $\cdot |F|)$ 。这表示计算每一轮的后验和抽样概率需要扫描所有可能的奖励向量 $\hat{\mu} \in F$ ，计算每一个的后验概率，并将这些概率归一化。
总运行时间：因此，如果你使用暴力计算（也就是直接计算而不使用任何优化技巧），算法 3.1（基本的汤普森抽样）或算法 3.2（有独立先验的汤普森抽样）每一轮的运行时间至少是 $\cdot |F|)$ 。随着时间的增长和可能奖励向量数量的增加，这个运行时间可能会变得非常大，甚至达到禁止性的程度。

简而言之，这段文本强调了在汤普森抽样算法中，直接计算后验概率可能会非常耗时，特别是当可能的奖励向量数量很大时。这表明在实际应用中，可能需要使用更高效的计算方法，例如近似方法、马尔可夫链蒙特卡洛（MCMC）方法，或者变分推断等，以提高计算效率。
在这里插入图片描述
这段文本描述了一个更快的计算方法，用于汤普森抽样算法中的后验概率更新，称为序贯贝叶斯更新（sequential Bayesian update）。这个方法的关键优势是它每轮更新的计算复杂度更低。下面是这个方法的解释：

使用后验作为新的先验：在每一轮 $t$ 之后，当前的后验概率 $Pr_H$ 被用作下一轮的先验。这意味着，算法不需要从头开始计算所有历史数据的后验，而是可以在现有后验的基础上仅仅加入新的数据点 $a_t, r_t)$ （表示在轮 $t$ 选择了摇臂 $a_t$ 并观察到奖励 $r_t$ ）来更新后验概率。
贝叶斯更新：使用新的数据点 $a_t, r_t)$ ，算法更新后验概率 $\Pr_{H \oplus (a,r)}$ 。这个更新是根据贝叶斯定理进行的，考虑了新的观测数据对后验概率的影响。
计算复杂度的提升：通过这种序贯更新，每轮的计算不再依赖于整个历史的长度 $t$ ，而是仅仅依赖于可能的奖励向量集合 $F$ 的大小。因此，每轮的运行时间从 $\cdot |F|)$ 改进为 $O (∣ F ∣)$ 。
引理 3.4 的作用：这个方法是基于引理 3.4 的说明使用序贯更新方法是合理的。

总的来说，这种方法利用了贝叶斯统计的特性，允许算法在每一轮只用处理一个新的观测数据，而不是整个数据历史。这极大地提升了计算效率，特别是当面对大量数据和/或需要在多轮中频繁更新后验概率时。
在这里插入图片描述

上述讨论了在开发和研究算法时的一个常见权衡：在理论上具有低遗憾（regret）界限的算法，与在实际中计算效率高的算法之间的平衡。

低遗憾算法：在理论研究中，我们通常希望我们的算法有一个低的遗憾界限，即在长期运行中与最优策略相比损失的收益（遗憾）是有限的。这样的算法可以提供一个性能保证，证明在最糟糕情况下它的表现也是可以接受的。
计算效率高的算法：在实际应用中，我们更关心算法的计算效率，即算法运行的速度。一个理论上遗憾界限未知，但在实践中运行速度快并且表现良好的算法可能更受青睐。

文本中提到的“慢算法”可能是指在理论上有很好遗憾界限证明的算法，但在实际运行时计算代价高，运行慢。这样的算法可以作为概念验证（proof-of-concept），表明理论上的遗憾界限是可以达到的。

另一方面，即使一个算法在理论上没有遗憾界限的证明，如果它在实际中运行迅速并且表现出色，那么它也是有价值的。这样的算法在实践中可能更有用，尤其是在对运行时间有严格要求的场景中。

总之，这段文本强调了在算法设计中，既要考虑理论上的性能保证，也要考虑实际应用中的运行效率。这两个目标可能难以同时达到，因此在不同的应用场景中，我们可能需要根据实际需求来选择适合的算法。
在这里插入图片描述
上述描述了在独立先验假设下，如何为每个摇臂单独进行序贯贝叶斯更新。这里的关键思想是，因为先验是独立的，我们可以为每个摇臂的奖励分布单独更新后验，而不需要考虑其他摇臂的分布。这大大简化了计算过程。具体步骤如下：

在轮次 $t$ 中，假设观察到的数据点是 $a_t, r_t)$ ，即选择了摇臂 $a$ 并观察到奖励 $r$ 。
将当前摇臂 $a$ 的后验概率 $\Pr^a_H$ 当作新的先验概率。
进行贝叶斯更新，使用新的数据点 $(a, r)$ 来计算新的后验概率 $\Pr^a_{H'}$ ，其中 $H^{'}$ 是将 $(a, r)$ 添加到历史 $H$ 上得到的新历史。
新的后验概率 $\Pr^a_{H'}(x)$ 的计算公式是：
$\Pr^a_{H'}(x) = \frac{\Pr^a_H(x) \cdot D_x(r)}{\sum_{x \in \mathcal{F}_a} \Pr^a_H(x) \cdot D_x(r)}$
其中 $x$ 是摇臂 $a$ 的可能奖励值， $D_x(r)$ 是在假设摇臂 $a$ 的真实奖励值为 $x$ 时观察到奖励 $r$ 的概率密度函数， $\mathcal{F}_a$ 是摇臂 $a$ 的奖励值的支持集。
因为对每个摇臂的计算是独立的，所以新的后验概率可以在 $O(|\mathcal{F}_a|)$ 的时间内计算完成，其中 $|\mathcal{F}_a|$ 是摇臂 $a$ 可能奖励值的数量。
对于所有摇臂来说，如果每个摇臂的可能奖励值数量相近，那么整体的计算复杂度会与每个摇臂的计算复杂度相近，而不是与所有可能奖励向量的集合 $F$ 的大小成正比。这导致了与暴力方法相比的指数级的速度提升。

总的来说，上述说明了如何通过将每个摇臂的后验更新独立出来，以及如何使用序贯更新来提升汤普森抽样算法的计算效率。在独立先验的情况下，这种方法可以显著减少计算的时间复杂度，使得算法更加适用于实际应用。
在这里插入图片描述
上述从贝叶斯统计的角度描述了一个特定场景，集中在赌博机问题（bandit problems）上——这是一种决策问题。以下是其内容的解释：

特殊情况：段落开头提到，在特定场景（特殊情况）下，后验分布的计算和从这些分布中的抽样可以比平时快得多。后验分布，通常表示为 $\Pi^a_H$ ，代表在观察到行动结果后对平均奖励的更新信念，在赌博机问题中非常重要。

众所周知的特殊情况：接着说明，在两个众所周知的实例中，可以更快地进行计算。这些特殊情况允许更有效率的分析，因为它们简化了更新后验分布通常涉及的复杂计算。

问题设定的放宽：文本提到了问题设定的一个放宽，允许平均奖励取任意实数值，这简化了分析。在典型的赌博机问题中，平均奖励基于选择特定行动（或臂）的结果分布。通过允许这些奖励取任意实数值，问题的数学处理变得不那么受限，可能更直接。

符号简化：段落引入了简化符号，使讨论更易于管理：

假设只有一个臂（动作），表示为 $a$ 。这个简化将多臂赌博机问题简化为单臂场景，使分析更为直接。
$\mathbb{P}$ 表示这个臂的平均奖励 $\mu(a)$ 的先验分布。这是在观察任何结果之前关于平均奖励的信念。
$H$ 代表行动和结果的一个可行历史，称为 t-历史。它封装了到时间 t 为止的事件序列（采取的行动和观察到的奖励）。
$REW_H$ 表示在历史 $H$ 中累积的总奖励。

上述细描述了贝塔-伯努利（Beta-Bernoulli）和高斯（Gaussians）先验与后验分布的结合，这在贝叶斯统计和决策理论中是常见的概念。下面是对这段文字的理解和解释：

Beta-Bernoulli

背景：假设奖励遵循伯努利分布，根据推论 3.2，后验分布 $\Pi^H$ 由先验分布 $\mathbb{P}$ 、样本数量 $t$ 和总奖励 $REW_H$ 决定。如果先验分布是均匀分布（在区间 [0, 1] 上），通常被称为 Beta 分布。

公式：后验分布 $\mathbb{U}_H$ 通常表示为 Beta 分布，具有参数 $\alpha = 1 + REW_H$ 和 $\beta = 1 + t$ ，并表示为 $Beta(\alpha, \beta)$ 。为了保持一致性，当 $t = 0$ 时，没有历史信息的后验分布 $\mathbb{U}_H$ 仅仅是先验分布 $\mathbb{U}$ 。

Beta-Bernoulli 共轭对：Beta-Bernoulli 共轭对是伯努利奖励和先验分布 $\mathbb{P} = Beta(\alpha_0, \beta_0)$ 的组合。后验分布 $\Pi_H$ 简单地表示为 $Beta(\alpha_0 + REW_H, \beta_0 + t)$ 。这是因为 $\mathbb{P}$ 是从一个适当选择的可行历史 $H_0$ 开始，并且 $\Pi_H = \mathbb{U}_{H_0} \otimes H$ ，根据引理 3.4。