与Bootstrap有关的几种处理大数据的方法

Bootstrap

(Efron, 1979)
假设条件:

  1. B与n同阶
  2. 有放回抽样,抽取样本量与原样本量相同

n out of N bootstrap

(Bickel,Gotze和van Zwet,1997)
子样本 n ≪ N ( n = o ( N ) ) n\ll N (n = o(N)) nN(n=o(N))
得到的估计 θ ^ n \hat\theta_n θ^n的渐近性质 是基于n的
要想得到 θ ^ N \hat\theta_N θ^N的渐近性质,需要重缩放估计 θ ^ n \hat\theta_n θ^n

BLB(Bag of little bootstrap)

Kleiner等人(2014)
bootstrap + subsampling,适用于并行运算

  1. 子抽样,从N个原始样本中抽取s个大小为n的子样本集
  2. 重抽样,从每个子样本集中,重放回抽取N个样本, 重复r次(从多项分布抽每个样本出现的次数,扩充为N个样本)。进行参数估计。
  3. 整合s个小样本的结果。

注意: n的选择–影响推断
s个子样本集, s的选取 — 计算资源和计算精度的权衡
子数据集重抽样r次

SDB(Subsampled double bootrap)

(Sengupta et al 2016)
与BLB类似,第二步中,r=1。

[1] Bickel, P. J., G¨otze, F. and van Zwet, W. R. (1997). Resampling Fewer than n Observations: Gains, Losses, and Remedies for Losses. Statistica Sinica 7 1–31.

[2] Efron, B. (1979). Bootstrap Methods: Another Look at the Jackknife. The Annals of Statistics 7 1–26.
[3] Kleiner, A., Talwalkar, A., Sarkar, P. and Jordan, M. I. (2014). A Scalable Bootstrap for Massive Data. Journal of the Royal Statistical Society: Series B (Statistical Methodology) 76 795–816.
[4] Sengupta, S., Volgushev, S., & Shao, X. (2016). A subsampled double bootstrap for massive data. Journal of the American Statistical Association, 111(515), 1222-1232.

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值