与Bootstrap有关的几种处理大数据的方法

文章探讨了Bootstrap抽样方法在处理大样本时的挑战,包括n与N的关系及其对估计的影响。Bickel等人的研究关注当n远小于N时的估计渐近性质,而Kleiner等人的工作提出了适用于并行计算的Bootstrap和子抽样结合的方法。SDB方法则简化了重抽样过程。这些方法旨在优化大规模数据的统计推断效率和准确性。

Bootstrap

(Efron, 1979)
假设条件:

  1. B与n同阶
  2. 有放回抽样,抽取样本量与原样本量相同

n out of N bootstrap

(Bickel,Gotze和van Zwet,1997)
子样本 n≪N(n=o(N))n\ll N (n = o(N))nN(n=o(N))
得到的估计θ^n\hat\theta_nθ^n的渐近性质 是基于n的
要想得到θ^N\hat\theta_Nθ^N的渐近性质,需要重缩放估计θ^n\hat\theta_nθ^n

BLB(Bag of little bootstrap)

Kleiner等人(2014)
bootstrap + subsampling,适用于并行运算

  1. 子抽样,从N个原始样本中抽取s个大小为n的子样本集
  2. 重抽样,从每个子样本集中,重放回抽取N个样本, 重复r次(从多项分布抽每个样本出现的次数,扩充为N个样本)。进行参数估计。
  3. 整合s个小样本的结果。

注意: n的选择–影响推断
s个子样本集, s的选取 — 计算资源和计算精度的权衡
子数据集重抽样r次

SDB(Subsampled double bootrap)

(Sengupta et al 2016)
与BLB类似,第二步中,r=1。

[1] Bickel, P. J., G¨otze, F. and van Zwet, W. R. (1997). Resampling Fewer than n Observations: Gains, Losses, and Remedies for Losses. Statistica Sinica 7 1–31.

[2] Efron, B. (1979). Bootstrap Methods: Another Look at the Jackknife. The Annals of Statistics 7 1–26.
[3] Kleiner, A., Talwalkar, A., Sarkar, P. and Jordan, M. I. (2014). A Scalable Bootstrap for Massive Data. Journal of the Royal Statistical Society: Series B (Statistical Methodology) 76 795–816.
[4] Sengupta, S., Volgushev, S., & Shao, X. (2016). A subsampled double bootstrap for massive data. Journal of the American Statistical Association, 111(515), 1222-1232.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值