统计学习-简单采样算法简介
初探机器学习中基本的采样方法
在我们的学习过程中,其实之前接触过类似采样的一些领域,比如在统计调查中的抽样调查,是抽取了一部分样本进行估计来推断总体的参数。比如在通信领域的信号提取,就用到了采样来逼近真实的信号。在机器学习过程中,也经常会遇到一些需要采样的情况,当问题的模型是比较复杂的时候,可以用采样来近似逼近或者求解;或者在最初无法了解数据的整体分布时,可以通过采样来了解数据的特征,给使用者一个大概的印象。本文中我们主要介绍几种简单的抽样方法,比如函数变换采样、逆变换采样、拒绝采样等。
1、函数变换采样,这个方法的思路其实是利用了概率密度函数之间存在的关系,当原分布很难采集样本的时候,可以将原始分布进行变换后,对于新的分布进行采样然后通过反函数变换得到原始分布的样本。在高维空间的时候,利用这种函数变换可以减少采样的难度。
2、逆变换采样,这种采样方法其实是上述函数变换采样的一种特殊形式,因为当变换关系是原始函数的一个累积分布函数的时候,对累积分布函数进行采样后,再进行求累积分布函数的逆函数值后可以得到原始分布的抽样。它的方法步骤如下:
1)在均匀分布(0,1) 中随机生成一个值v
2)计算 u=g(v) 其中g(.)函数是累积分布函数的F(.)的逆函数
3)得到的u即是原始分布函数里的值,也就化解了原始分布函数很难抽样的问题
3、拒绝采样,对于目标分布F(x) ,可以选取一个较为简单的,并且容易采样的参考分布G(x) ,从而对于任意的x都有该等式成立,即F(x)<=C✖G(x) 也就是找了一个简单的参考分布G&