多种采样方法

目录

1 采样的作用

2 蒙特卡洛

2.1 逆转换方法

2.2 接受拒绝方法

3 重要性采样

4 Metropolis-Hastings采样

5 吉布斯采样

6 自助法

7 Jackknife (刀切法)


1 采样的作用

        采样在机器学习中有着非常重要的应用:

  • 它可以将复杂的分布简化为离散的样本点;
  • 可以用重采样对样本集进行调整以更好地适应后期的模型学习;
  • 可以用于随机模拟以进行复杂模型的近似求解或推理。
  • 另外, 采样在数据可视化方面也有很多应用, 可以帮助人们快速、 直观地了解数据的结构和特性。

采样是从特定的概率分布中抽取对应的样本点。

采样的作用:

(1)采样本质上是对随机现象的模拟, 根据给定的概率分布, 来模拟产生一个对应的随机事件。 采样可以让人们对随机事件及其产生过程有更直观的认识。 例如, 通过对二项分布的采样, 可以模拟“抛硬币出现正面还是反面”这个随机事件, 进而模拟产生一个多次抛硬币出现的结果序列, 或者计算多次抛硬币后出现正面的频率。

(2)另一方面, 采样得到的样本集也可以看作是一种非参数模型即用较少量的样本点(经验分布) 来近似总体分布, 并刻画总体分布中的不确定性。 从这个角度来说, 采样其实也是一种信息降维, 可以起到简化问题的作用。 例如, 在训练机器学习模型时, 一般想要优化的是模型在总体分布上的期望损失(期望风险) , 但总体分布可能包含无穷多个样本点, 要在训练时全部用上几乎是不可能的, 采集和存储样本的代价也非常大。 因此, 一般采用总体分布的一个样本集来作为总体分布的近似, 称之为训练集, 训练模型的时候是最小化模型在训练集上损失函数(经验风险) 。 同理, 在评估模型时, 也是看模型在另外一个样本集(测试集) 上的效果。 这种信息降维的特性, 使得采样在数据可视化方面也有很多应用, 它可以帮助人们快速、 直观地了解总体分布中数据的结构和特性。

(3)对当前的数据集进行重采样, 可以充分利用已有数据集, 挖掘更多信息, 如自助法和刀切法(Jack knife) , 通过对样本多次重采样来估计统计量的偏差、 方差等。 另外, 利用重采样技术, 可以在保持特定的信息下(目标信息不丢失) ,有意识地改变样本的分布, 以更适应后续的模型训练和学习, 例如利用重采样来处理分类模型的训练样本不均衡问题。

        此外, 很多模型由于结构复杂、 含有隐变量等原因, 导致对应的求解公式比较复杂, 没有显式解析解, 难以进行精确求解或推理。 在这种情况下, 可以利用采样方法进行随机模拟, 从而对这些复杂模型进行近似求解或推理。 这一般会转化为某些函数在特定分布下的积分或期望, 或者是求某些随机变量或参数在给定数据下的后验分布等。 例如, 在隐狄利克雷模型和深度玻尔兹曼机(Deep Boltzmann Machines, DBM) 的求解过程中, 由于含有隐变量, 直接计算比较困难, 此时可以用吉布斯采样对隐变量的分布进行采样。 如果对于贝叶斯模型, 还可以将隐变量和参数变量放在一起, 对它们的联合分布进行采样。 注意, 不同于一些确定性的近似求解方法(如变分贝叶斯方法、 期望传播等) , 基于采样的随机模拟方法是数值型的近似求解方法。

2 蒙特卡洛

2.1 逆转换方法

蒙特卡洛(Monte Carlo, MCMC)方法的原理和应用_哔哩哔哩_bilibili

        概率密度函数PDF 转化为累积分布函数CDF。

       在使用逆转换方法的时候,需要先对目标概率密度函数PDF求积分,得到累计分布函数CDF,再对CDF进行反函数求解,得到从均匀分布到目标分布的转化函数,这样就能实现从简单均匀分布出发,得到满足复杂目标分布的随机值。但之前求积分和反函数的步骤,会很麻烦,因此有了接受拒绝方法。

2.2 接受拒绝方法

3 重要性采样

        重要性采样是蒙特卡洛积分的一种采样策略,所以在介绍重要性采样之前我们先来介绍一下蒙特卡洛积分的一些基本内容。

       首先,当我们想要求一个函数   在区间  上的积分  时有可能会面临一个问题,那就是积分曲线难以解析,无法直接求积分。这时候我们可以采用一种估计的方式,即在区间  上进行采样:  ,值为  。 

        如果采样是均匀的,即如下图所示:

 

        那么显然可以得到这样的估计:  ,在这里  可以看作是上面小长方形的底部的“宽”,而  则是竖直的“长”。

重要性采样

        上述的估计方法随着取样数的增长而越发精确,那么有什么方法能够在一定的抽样数量基础上来增加准确度,减少方差呢?这就需要我们人为地对抽样的分布进行干预,首先我们看下图:

 

        很明显在圆形区域的函数值对积分的贡献比方形区域要大很多,所以我们可以在抽样的时候以更大的概率抽取圆形区域的样本,这样一来就能够提高估计的准确度。假设我们以分布  在原函数上进行采样:

 

         依照这个分布进行采样我们一定程度上可以使得在原函数对积分贡献大的区域获得更多的采样机会。但这时我们不能对  进行简单的求和平均来获得估计值,因为此时采样不是均匀分布的,小矩形的“宽”并不等长,所以我们要对其进行加权,这个权重就是重要性权重。 

        在得到重要性权重之前我们要重新思考一个问题:为什么我们要引入一个新的分布  ? 

        原因就是原函数  也许本身就是定义在一个分布之上的,我们定义这个分布为  ,我们无法直接从  上进行采样,所以另辟蹊径重新找到一个更加简明的分布  ,从它进行取样,希望间接地求出  在分布  下的期望。

        搞清楚了这一点我们可以继续分析了。首先我们知道函数  在概率分布  下的期望为:  ,但是这 个期望的值我们无法直接得到,因此我们需要借助  来进行采样,当我们在  上采样  后可以估计  在分布  下的期望为:  。

         接着我们可以对式子进行改写,即:  ,所以我们可以得到:

         

        这个式子我们可以看作是函数  定义在分布  上的期望,当我们在  上采样  后可以估计  的期望 ,在这里  就是重要性权重。

4 Metropolis-Hastings采样

 

 

 

 

 

 

5 吉布斯采样

不是拒绝采样。

至少是二维的。

Monte Carlo-吉布斯采样_哔哩哔哩_bilibili

​​​​​​​

 

 

 

6 自助法

        在统计学中,自助法(Bootstrap Method,Bootstrapping或自助抽样法)是一种从给定训练集中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。自助法由Bradley Efron于1979年在《Annals of Statistics》上发表。当样本来自总体,能以正态分布来描述,其抽样分布(Sampling Distribution)为正态分布(The Normal Distribution);但当样本来自的总体无法以正态分布来描述,则以渐进分析法、自助法等来分析。采用随机可置换抽样(random sampling with replacement)。对于小数据集,自助法效果很好。

        最常用的一种Bootstrap自助法,假设给定的数据集包含d个样本。该数据集有放回地抽样m次,产生m个样本的训练集。这样原数据样本中的某些样本很可能在该样本集中出现多次。没有进入该训练集的样本最终形成检验集(测试集)。 显然每个样本被选中的概率是1/m,因此未被选中的概率就是(1-1/m),这样一个样本在训练集中没出现的概率就是m次都未被选中的概率,即(1-1/m)^m。当m趋于无穷大时,这一概率就将趋近于e^-1=0.368,所以留在训练集中的样本大概就占原来数据集的63.2%。

        例如:人工样本为1,2,3;只有三个样本,则可以从随机变量X,分布为P(X=k)=1/3, k=1,2,3; 这样的经验分布中用计算机根据上述分布自动产生样本,如产生5个样本:1 2 3 2 1;也可以是:3 3 2 1 1

        自助法在数据集较小、难以有效划分训练集测试集时很有用;此外,自助法能从初始数据集中产生多个不同的训练集,这对集成学习等方法有很大的好处。然而,自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差。因此,在初始数据量足够时,留出法和交叉验证法更常用一些。

7 Jackknife (刀切法)

        Jackknife 方法由 Quenouille(1949) 提出,并由 Tukey(1958) 创造了 Jackkife 这一术语。Jackknife 是一种再抽样方法,其原始动机是「降低估计的偏差」。

        Jackknife类似于“Leave one out”的交叉验证方法。令X=(X1,X2,…,Xn)为观测到的样本,定义第i个Jackknife样本为丢掉第i个样本后的剩余样本即

        ​​​​​​​

        具体来看,对于未知分布的总体,从中抽取样本容量为  的样本,以样本统计量  来估计总体参数  会产生一定误差,尤其在小样本的情况下。为解决这样一个问题,可以将从原样本切去第  个个体后计算得到的统计量记为 。一般而言,估计值与实际值之间会相差一个常量 (偏差) 和一个无穷小量:

                       

         将  与  的差定义为切去第  个个体后的虚拟值  (pesudovalues),则有:

              

        虚拟值的期望值等于总体参数减去一个无穷小量,由此表明它对总体参数的估计相对于  更为精确。因此,可以用虚拟值的均值作为总体参数的一个无偏估计: 

                

          的方差:

               

重要性采样(Importance Sampling) - 知乎

  • 3
    点赞
  • 47
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值