Bootstrapping?

一、什么是Bootstrapping?

     中文翻译也叫“自助法(自举法)”。

      类似于给鞋子穿鞋带,把鞋带穿进去在穿出来再穿进去。

      举个例子,一个总体有五十人,没有办法直接测量总体的情况,我们就从总体中抽取一些样本,用抽取到的样本去评估总体。

 

      Bootstrapping是一种重抽样的方法,从现有的样本中有放回地随机抽取数据点,从而创造出多组模拟的样本。

     原文: "Bootstrap Methods: Another Look at the Jackknife"( B. Efron,1979)

       PDF链接:ann_stat1979.pdf (washington.edu)

 

二、Bootstrapping的原理

1、从现有的样本中有放回地随机抽取数据点。

(1)概率相等地随机从原始数据中抽取数据点,放入重抽样的样本;

(2)抽取数值时允许多次选取同一个数据点(有放回/wifh replacement);

(3)重复抽取直到重抽样的样本大小等于原有样本;

2、在Bootstrapping过程中可能会出现:

(1)有些数据点被抽取多次;

(2)有些数据点没有被抽取;

从原始数据中抽取值,每一次抽取的值都是等概率的,不论抽到第几次抽到的pool都不会发生变化,直到重抽样的样本数量跟原始数据数量相等(重复操作:抽取-记录-放回)

三、如何降低偏差?

       对于抽取到的样本不知道是否能很好的反应总体,但知道的是抽取到的样本都是带有误差的,那么就要降低误差最大限度根据抽取到的样本反应总体,但如何降低误差呢?

      为了降低随机偏差,bootstrapping过程通常会重复很多次(避免极端情况出现的概率,多次重复,降低偏差),现代计算机和统计软件可以让booystrapping过程重复上千万词。

      但抽取样本太多,现实中用不到那么多的样本,那么可以取每个样本的平均值,把bootstrapping得到的样本整合起来。把重抽样的样本平均值集合起来作为一个重抽样的样本使用,重抽样的样本平均值服从正太分布。

在bootstrapping中,抽到每个组合的概率都是相等的,所以某个平均值对应的组合情况越多,那么这个平均值在bootstrapping过程中出现的频率也就越高,例如,上述原始数据的五组bootstrapping,样本的平均值接近于3,对应bootstrapping组合中三出现的次数也是最多,用直方图表示,会发现重抽样的样本平均值服从正太分布。(bootstrapping只是为了满足前提假设,使结果更加准确)

四、Bootstrapping的问题

(1)多次重复只能降低偏差,并没有消除偏差,极端情况下反而可能增大偏差(虽然是随机抽取,但是有一定的概率每次都抽到极端情况),小概率情况下偏差可能会被放大。

(2)没有办法重现(抽取到的概率不能复现)。

(3)重复多次的情况下耗时较长。

  • 5
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值