摘要这一篇是关于重要性抽样(importance sampling)的介绍, 包括他的背景知识, 相关的数学转换和最后的例子.
简介
重要性抽样(importance sampling)是一种近似的抽样方法, 他通过一些小的数学上的变化, 使得可以对一些不好抽样的分布进行抽样和估计. 这个会在强化学习中的off-policy的方法中用到, 从一个策略进行抽样, 更新另外一个策略(关于强化学习的内容, 之后专门来讲).
在这篇文章中, 我们就着重于importance sampling, 我们将从下面的几个点进行书写:
什么是importance sampling (什么是重要性抽样), 背景知识和数学转换;
importance sampling的例子, 分析方差;
参考资料
Importance Sampling简单介绍
背景介绍
假设现在我们要计算f(x)的期望, 其中x~p(x), 那么E[f(x)]的计算如下所示:
我们可以使用蒙特卡洛采用的方法, 首先从分布p(x)中抽样得到x, 接着将所有的f(x)求平均, 来近似f(x), x~p(x)的期望.
存在的问题与解决方法
上面的采用方法很简单, 但可能存在一个问题, 如果我们无法从分布p(x)中抽样, 或者从中抽样的成本很高, 那么我们还可以求E[f(x)]吗.
答案是可以的, 我们可以从一个简单的分布q(x)中进行抽样得到x, 接着乘上一个系数, 就可以来近似计算f(x), x~p(x)的期望.
我们可以通过下面一个简单的数学式子来是的从分布q(x)中进行抽样的数据来估计f(x)