bootstrap是什么_【学习】| 统计学中的Bootstrap方法

MinitabUG、Minitab微课堂原创文章

转载请联系客服微信:13524041180

83f69b0e468ef1775affa1c454a168c7.gif

什么是Bootstrap

83f69b0e468ef1775affa1c454a168c7.gif

抽样分布描述从总体的随机样本中获取统计量的每个可能值的可能性;换句话说,该大小的所有随机样本中有多大比率将得到该值。Bootstrap是一种通过抽取多个样本来估计抽样分布的方法,这些样本中包含单个随机样本的替换内容。这些重复样本称为重新采样的样本。每个重新采样样本的数量与原始样本相同。Bootstrap是非参数统计中一种重要的估计统计量,并可进行统计量区间估计的统计方法,也称为自助法(Minitab中翻译为自举法)。

591ec769f4fa639d54587c33ba0c6267.gif

“Bootstrap”来自短语“to pull oneself up by one’s bootstraps” (源自西方神话故事“TheAdventures of Baron Munchausen”,男爵掉到了深湖底,没有工具,所以他想到了拎着鞋带将自己提起来)。Bootstrap在英语中作为一个名词的话,其的意思是“拔靴带”,也就是通过自身的力量,自己把自己抬起来。“通过自身的力量”——这是Bootstrap方法的核心所在。

9c1b69126cd6ef3dd9633b627d78dfc9.gif

什么情况下使用Bootstrap方法?

1) 可以使用Bootstrap方法计算参数(均值、中位数、和、标准差或方差)的置信区间,或对参数进行假设检验。 这种方法不需要假设观测值的分布模型(与传统的假设检验要求正态分布不同)。 2) 当观测值分布未知或用户还没有学到观测值分布的概念时,这种方法就会变得很实用(Minitab在19版本中引入此方法,但是在教育版本Minitab Express一直有这个功能)。 ead34c685de9b1f62fce4938fd90c573.gif

a38886ee01df6b3f7daade42ffaeab5f.gif

Bootstrap方法的基本思想

1)采用重复抽样技术从原始样本中抽取一定数量(可自己给定,一般与原始样本相同)的样本,此过程允许重复抽样(有放回)。

2)根据抽出的样本计算待估计的统计量T。

3)重复上述N次(一般大于1000),得到N个统计量T。

4)计算上述N个统计量T的指标(均值、中位数、和、标准差或方差),以此估计统计量T的指标。

Minitab中的Bootstrap应用

3a95ebee13188a803a8eacd24ae8e194.png

在2019年6月5日发布的Minitab 19版本中,引入Bootstrao方法。

8c2248c186b70569c3ee835ce9fff94a.png

9c1b69126cd6ef3dd9633b627d78dfc9.gif

举个例子:从一学校中随机抽样调查20名学生的身高,打算通过这20个人的身高估计该学校所有学生的身高(对20个人编号,身高数据如下表)。

4d38306076d7f869645a3e92baecf06b.png

这20个人的身高数据构成的样本,我们称为观察样本。

根据Bootstrap的基本思想,我们有放回的重复抽取1000次(不是1000个),每次的取样量为20(每个重新采样样本的数量与原始样本相同),得到1000个新的样本。由于是有放回的取样,那么在每次取样中,并不是编号1-20的每个人都可能被取到。如前5次的取样结果如下,在第3次取样中,连续4次取到编号为10的学生。

a1ef3e39e9458b86867916b1b2f599c1.png

我们利用Minitab模拟完成此1000次取样,操作如下。

837b007ef598d5980b1c3d12fd348fab.png

f7fe7625f51d3a5a12d282090c642f28.png

Minitab

结果解释

在C2列,我们可以得到1000个均值,这1000个均值就是1000次取样的均值。

4918396816566ffa9bbaae6f09937ffa.png

651315fc98561d46ebf199542506db0a.png

● 在以上输出结果中,我们可以看到1000次取样均值的分布直方图,大致呈正态分布(当然,我们也可以对C2列做正态性检验)。

● “观测到的样本”表中反映的是20个学生的身高信息,比如说这20个学生的身高均值为170.10cm。

●  我们更加感兴趣的是“均值的Bootstrap样本”表,在这里,我们得到均值的95%置信区间(167.900,172.250)。这是非常有意义的,尤其是当你的数据非正态,甚至是分布未知的时候。当然除了均值的置信区间,我们还可以算得方差、标准差等其他统计量的置信均值。

1dde5e705d1dea484d0419d4462a8c49.png

83f69b0e468ef1775affa1c454a168c7.gif

 小 结 

83f69b0e468ef1775affa1c454a168c7.gif

使用Bootstrap方法除了可以来计算未知分布统计量的置信区间,我们还可以用来进行假设检验(Minitab中称为“随机化检验”)。另外,这种方法对于我们理解“中心极限定理“也非常有用,如果你对此感兴趣,欢迎登录官网下载Minitab 19.2免费30天试用。

dc43e0ff224f05fea2bb1d74be2ff597.gif

f363c2ee8390e37855758ef6e4f568a6.png

  • 0
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值