摘要这一篇是关于重要性抽样(importance sampling)的介绍, 包括他的背景知识, 相关的数学转换和最后的例子.
简介
重要性抽样(importance sampling)是一种近似的抽样方法, 他通过一些小的数学上的变化, 使得可以对一些不好抽样的分布进行抽样和估计. 这个会在强化学习中的off-policy的方法中用到, 从一个策略进行抽样, 更新另外一个策略(关于强化学习的内容, 之后专门来讲).
在这篇文章中, 我们就着重于importance sampling, 我们将从下面的几个点进行书写:
什么是importance sampling (什么是重要性抽样), 背景知识和数学转换;
importance sampling的例子, 分析方差;
参考资料
Importance Sampling简单介绍
背景介绍
假设现在我们要计算f(x)的期望, 其中x~p(x), 那么E[f(x)]的计算如下所示:

我们可以使用蒙特卡洛采用的方法, 首先从分布p(x)中抽样得到x, 接着将所有的f(x)求平均, 来近似f(x), x~p(x)的期望.
存在的问题与解决方法
上面的采用方法很简单, 但可能存在一个问题, 如果我们无法从分布p(x)中抽样, 或者从中抽样的成本很高, 那么我们还可以求E[f(x)]吗.
答案是可以的, 我们可以从一个简单的分布q(x)中进行抽样得到x, 接着乘上一个系数, 就可以来近似计算f(x), x~p(x)的期望.
我们可以通过下面一个简单的数学式子来是的从分布q(x)中进行抽样的数据来估计f(x)
本文介绍了重要性采样(Importance Sampling)的概念,它是一种近似抽样方法,尤其适用于强化学习的off-policy场景。当直接从分布p(x)抽样困难时,可通过从简单分布q(x)抽样并调整概率来估算E[f(x)]。文章详细阐述了其背景知识、数学转换,并通过实例展示了方差分析,揭示了当p(x)与q(x)接近时,方差较小,反之则较大。通过MATLAB实现,展示了不同分布下采样数量对均值估计和方差的影响。
最低0.47元/天 解锁文章
1640

被折叠的 条评论
为什么被折叠?



