随机采样：Firefly Monte Carlo（一）

Mr_逍遥游

已于 2024-05-12 11:58:13 修改

阅读量1k

点赞数 24

文章标签：算法机器学习人工智能

于 2024-05-12 11:37:12 首次发布

本文链接：https://blog.csdn.net/Mr_X_3/article/details/138746031

版权

Firefly Monte Carlo: 照亮贝叶斯推断的新路径

在这里插入图片描述

在贝叶斯统计学中，马尔可夫链蒙特卡洛（MCMC）是一种强大的工具，用于从复杂的概率分布中生成样本。然而，当面对大型数据集时，传统的MCMC方法可能会因为需要评估所有数据点的后验分布而变得计算成本高昂。为了克服这一难题，Dougal Maclaurin在他的博士论文中提出了一种创新的MCMC算法——Firefly Monte Carlo（萤火虫蒙特卡洛）。

Firefly Monte Carlo的核心思想

Firefly Monte Carlo算法的核心在于引入了辅助变量的概念，这些辅助变量是一组伯努利随机变量，每个数据点对应一个。这些变量的条件分布被设计为能够在后验中有效地“打开”或“关闭”数据点，因此称为“萤火虫”。从而允许算法在每次迭代中只查询数据的一个潜在小子集，这些潜在变量的引入不会改变感兴趣的参数的边际分布，保持从精确的后验分布中模拟样本。唯一的要求是有可能为每个似然项提供一个“可折叠的”下界。

Firefly Monte Carlo算法概述

Firefly Monte Carlo是一种用于贝叶斯推断的MCMC算法，它通过引入辅助变量来减少每次迭代中需要评估的数据量，同时保持从完整数据的后验分布中采样的准确性。

算法的数学基础

目标分布：萤火虫蒙特卡洛算法解决了从概率模型的后验分布中采样的问题。我们将感兴趣的参数表示为 𝜃，并假设它们有一个先验分布 p(θ)。我们假设已经观察到了 N 个数据 ${x_n}$ ,并且这些数据在给定 𝜃的条件下，根据似然 $p(x_n | \theta)$ 是条件独立的。因此，我们的目标分布是：
$p(\theta | \{x_n\}_{n=1}^{N}) \propto p(\theta,\{x_n\}_{n=1}^{N}) = p(\theta) \prod_{n=1}^{N} p(x_n | \theta)$ …(1)
似然函数：第n个数据点的似然函数表示为 $L_n(\theta) = p(x_n | \theta)$
辅助变量：传统的算法，如Metropolis-Hastings，要求在每次迭代中对非归一化后验进行完整的评估。当数据集很大时，评估所有Ѕ可能性是一个计算瓶颈。这就是我们试图用Firefly解决的问题。对于每个数据点n，引入一个二进制辅助变量 $z_n \in \{0, 1\}$ 和一个下界函数 $B_n(\theta)$ ，它是似然 $L_n(\theta)$ 的严格正下界。满足条件： $B_n(\theta) \leq L_n(\theta)$
辅助变量的条件分布：每个 $z_n \in \{0, 1\}$ 都有如下伯努利分布，这取决于参数:
$p(z_n | x_n, \theta) = \left[ \frac{L_n(\theta) - B_n(\theta)}{L_n(\theta)} \right]^{z_n} \left[ \frac{B_n(\theta)}{L_n(\theta)} \right]^{1-z_n}$
增强的后验分布：通过辅助变量增强的后验分布可以表示为：
$p(\theta, \{z_n\}_{n=1}^N | \{x_n\}_{n=1}^N) \propto p(\theta, \{x_n, z_n\}_{n=1}^N) =p(\theta) \prod_{n=1}^N p(x_n | \theta) p(z_n | x_n, \theta)$
边际分布保持不变：尽管引入了辅助变量，参数 $\theta$ 的边际后验分布保持不变。推理如图所示：
“点亮”数据点：对概率密度进行评估, 在给定 ${z_n\}_{n=1}^N$ 的条件下，只有 $z_n = 1$ 的似然项需要被评估。推理如下：
“真实”似然项 $L_n(\theta)$ 只出现在 $z_n = 1$ 的因子中，这些数据点被视为完整数据集的“小批量”子样本。
参数转换更新：如果大多数 $z_n = 0$ ，则参数的转换更新将更加高效，因为这些更新只应用于 $\theta$ 的条件分布 $p(\theta | \{x_n, z_n\}_{n=1}^N)$ 。
下界函数的评估：尽管 $L_n(\theta)$ 的评估可以减少，但我们必须在每次迭代中评估所有 ( N ) 个下界函数 $B_n(\theta)$ 。
下界函数的形式：如果我们选择 $B_n(\theta)$ 具有方便的形式，例如缩放的高斯分布或其他指数族分布，那么整个乘积 $\prod_{n=1}^N B_n(\theta)$ 可以使用分布的充分统计量在 ( O(1) ) 时间内计算，这些统计量只需计算一次。
联合分布的重新排列：可以按照“伪先验” $\tilde{p}(\theta)$ 和“伪似然” $\tilde{L}_n(\theta)$ 重新排列联合分布，如下所示：
$p(\theta, \{z_n\}_{n=1}^N | \{x_n\}_{n=1}^N) \propto \tilde{p}(\theta) \prod_{n:z_n=1} \tilde{L}_n(\theta)$ …2
其中，乘积仅对 $z_n = 1$ 的 ( n ) 进行，并且我们定义了：
$\tilde{p}(\theta) = p(\theta) \prod_{n=1}^N B_n(\theta)$
$\tilde{L}_n(\theta) = \frac{L_n(\theta) - B_n(\theta)}{B_n(\theta)}$
马尔可夫链的生成：可以通过交替更新基于条件于 ${z_n\}_{n=1}^N$ 的 $\theta$ ，和基于条件于 $\theta$ 的 ${z_n\}_{n=1}^N$ ，使用任何常规的MCMC算法来为联合分布 2生成一个马尔可夫链。
边缘分布的保持：强调 $\theta$ 的边缘分布仍然是给定的正确的后验分布，如公式 1所示。

这些信息概述了Firefly Monte Carlo算法如何处理数据的子集以提高计算效率，并通过引入辅助变量和下界函数来保持目标后验分布的不变性的数学依据

总结：数据点的“点亮”和“熄灭”机制，

“暗”数据点：在给定的迭代中，那些 $z_n = 0$ 的数据点被称为“暗”数据点。在模拟马尔可夫链时，不需要计算这些“暗”数据点的似然性。
“点亮”数据点：在 $z_n$ 的马尔可夫转换空间中，一些“暗”数据点在转换过程中会变成“亮”的，即它们的 $z_n = 1$ ，然后在随后的迭代中包含这些“亮”数据点的似然性进行计算。
算法的动态性：随着 $z_n$ 的更新，数据点似乎像萤火虫一样闪烁，因为它们在“点亮”和“熄灭”之间变化，这种动态变化过程类似于萤火虫的闪烁。
选择下界和采样 $z_n$ 的细节：选择下界和高效采样 $z_n$ 的具体细节将在后续章节中讨论。目前，算法的高层次框架已经完整。

算法的可视化：

在这里插入图片描述

似然函数的表示：对于一维逻辑回归模型，单一数据点 ( x ) 的似然函数 $L_n(\theta)$ 可以表示为两个部分：一个下界 $B_n(\theta)$ （用蓝色阴影表示），以及剩余部分（用橙色阴影表示）。
辅助变量的引入：引入一个伯努利随机变量 $z_n$ ，它可以在新的更高维度空间中构建一个马尔可夫链。通过边缘化（即忽略） $z_n$ ，可以恢复原始的似然函数。
避免计算：如果下界 $B_n(\theta)$ 远大于似然函数与下界乘积 $L_n(\theta) \cdot B_n(\theta)$ 的差值，那么马尔可夫链将倾向于占据 $z_n = 0$ 的状态，从而避免在每次迭代中评估 $L_n(\theta)$ 。
计算效率：这种方法通过减少似然函数的计算次数来提高计算效率，特别是在处理大型数据集时。
算法的直观理解：通过将似然函数分解为两部分，Firefly Monte Carlo算法能够有效地处理数据点，并且只在必要时计算完整的似然函数。

结论

本文重点描述了Firefly Monte Carlo算法的数学原理，但是这个算法具体是怎么实现的呢，他的效果怎么样呢？下一篇博文继续介绍。

参考文献：
Maclaurin, D. (2016). “Firefly Monte Carlo”, Chapter 3 in “Modeling, Inference and Optimization with Composable Differentiable Procedures”, PhD Thesis, Harvard University.