贝叶斯实验设计中的重要性采样

Remote Sensing

已于 2022-07-01 16:03:12 修改

阅读量739

点赞数 1

分类专栏：机器学习文章标签：机器学习人工智能概率论贝叶斯深度学习

于 2022-06-30 18:00:48 首次发布

本文链接：https://blog.csdn.net/RSstudent/article/details/125544205

版权

机器学习专栏收录该内容

29 篇文章 7 订阅

订阅专栏

重要性采样是一种在难以直接采样的分布中获取样本的统计方法，常用于处理复杂后验分布。通过转换期望，将计算从困难的分布转移到易于采样的分布上。该技术在贝叶斯实验设计中，允许在不重新采样情况下更新权重，但主要计算开销仍来自正向模型的运行。有效样本数是衡量采样质量的指标，它反映了分布接近度。在实际应用中，重要性采样的主要优点是灵活性，而非显著节省计算资源。

摘要由CSDN通过智能技术生成

重要性采样

最近再看贝叶斯实验设计（BOED）相关文献的，发现重要性采样是一个常用方法。重要性采样和MCMC一样，是一种从难采样分布中采样的方法。常用于后验分布样本的采集。

目标

目标是求取积分式：
$\mathbb{E}_p[f(x)]=\int_{x}f(x)p(x)dx \\ =\int_{x}f(x)\frac{p(x)}{q(x)}q(x)dx\\ =\int_{x}f(x)w(x)q(x)dx\\ =\mathbb{E}_q[f(x)w(x)]$

通过上述等价的公式，将从 $p$ 上的期望，转移到 $q$ 上来求，但是需要对原来的函数进行一个加权 $w (x)$ 。
这样转移的原因在于，概率分布 $p$ 采样是困难的，而概率分布 $q$ 采样是容易的，这个分布式我们自己随意选取的，但是需要注意选取时要保证两个分布的支撑（取值范围）相同。例如， $p$ 可以是某种复杂的后验分布，而 $q$ 可以是高斯分布、均匀分布等极为容易采样，且具有直接采样算法的概率分布。
而概率分布 $p$ 的采样虽然是困难的，但是其是可以计算的，新手常常误解这一点。采样的困难并不是来源于不能计算。因此，权重 $w (x)$ 是可以计算的。

计算

利用蒙特卡洛积分，可以容易的将上面的期望写为求和形式：
$\mathbb{E}_q[f(x)w(x)]\\ =\frac{1}{N}\sum_{i=1}^{N}f(x_i)w(x_i)$
其中， $x_i \sim q(x)$ 采样，上面也已经说过 $q (x)$ 是好采样的。

有效样本数

进行了大量采样后，有效样本数表达为：
$\frac{(\sum_{i=1}^{N}{w_i)^2}}{\sum_{i=1}^{N}w_i^2}$
有效样本数是评判采样质量的一个标准，其思想来源于如果概率分布 $p$ 和概率分布 $q$ 十分的接近，则有效样本数会接近采样数。如果两者概率分布相差很大，则权重要么很大，要么很小，则有效样本数就会降低。