与Bootstrap有关的几种处理大数据的方法

原创已于 2023-02-27 16:19:38 修改 · 726 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#bootstrap #统计学

于 2023-02-25 19:38:32 首次发布

统计专栏收录该内容

6 篇文章

订阅专栏

文章探讨了Bootstrap抽样方法在处理大样本时的挑战，包括n与N的关系及其对估计的影响。Bickel等人的研究关注当n远小于N时的估计渐近性质，而Kleiner等人的工作提出了适用于并行计算的Bootstrap和子抽样结合的方法。SDB方法则简化了重抽样过程。这些方法旨在优化大规模数据的统计推断效率和准确性。

Bootstrap

(Efron, 1979)
假设条件：

B与n同阶
有放回抽样，抽取样本量与原样本量相同

n out of N bootstrap

(Bickel,Gotze和van Zwet,1997)
子样本 $n≪N(n=o(N))n\ll N (n = o(N))$
得到的估计 $θ^n\hat\theta_n$ 的渐近性质是基于n的
要想得到 $θ^N\hat\theta_N$ 的渐近性质，需要重缩放估计 $θ^n\hat\theta_n$

BLB(Bag of little bootstrap)

Kleiner等人(2014)
bootstrap + subsampling，适用于并行运算

子抽样，从N个原始样本中抽取s个大小为n的子样本集
重抽样，从每个子样本集中，重放回抽取N个样本，重复r次(从多项分布抽每个样本出现的次数，扩充为N个样本）。进行参数估计。
整合s个小样本的结果。

注意： n的选择–影响推断
s个子样本集， s的选取 — 计算资源和计算精度的权衡
子数据集重抽样r次

SDB(Subsampled double bootrap)

(Sengupta et al 2016)
与BLB类似，第二步中，r=1。

[1] Bickel, P. J., G¨otze, F. and van Zwet, W. R. (1997). Resampling Fewer than n Observations: Gains, Losses, and Remedies for Losses. Statistica Sinica 7 1–31.

[2] Efron, B. (1979). Bootstrap Methods: Another Look at the Jackknife. The Annals of Statistics 7 1–26.
[3] Kleiner, A., Talwalkar, A., Sarkar, P. and Jordan, M. I. (2014). A Scalable Bootstrap for Massive Data. Journal of the Royal Statistical Society: Series B (Statistical Methodology) 76 795–816.
[4] Sengupta, S., Volgushev, S., & Shao, X. (2016). A subsampled double bootstrap for massive data. Journal of the American Statistical Association, 111(515), 1222-1232.