作者: 吴雄(湘潭大学),童天天(中南财经政法大学)
连享会
Source: The Bootstrap in Stata
原文链接: 连享会-Bootstrap简介
文章目录
1. Bootstrap 简介
bootstrap 是一种崭新的增广样本统计方法,为解决小样本问题提供了很好的思路。它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。对于回归模型:对于线性回归模型:
y t = X t β + u t , E ( u t ∣ X t ) = 0 , E ( u s u t = 0 ) ∀ s ≠ t y_t = X_t β+u_t, \\ E(u_t|X_t)=0,\ E(u_s u_t=0) \ ∀\ s≠t yt=Xtβ+ut,E(ut∣Xt)=0, E(usut=0) ∀ s=t
可以通过多种方法来建立 bootstrap 的数据生成过程 (DGP) 。所谓的 bootstrap DGP 是对未知的 「真实 DGP」的一种估计。如果 bootstrap DGP 在某种意义上接近真实的 DGP,那么由 bootstrap DGP 生成的数据将与真实 DGP 生成的数据相似(如果已知的话)。如果是这样,则进行模拟使用 bootstrap DGP 获得的 P 值与真实 P 值足够接近,可以进行准确的推理。
Bootstrap 的基本思想是:如果 观测样本 是从母体中随机抽取的,那么它将包含母体的全部的信息,那么我们不妨就把这个观测样本视为 “总体”。可以简单地概括为:既然样本是抽出来的,那我何不从样本中再抽样。
具体而言,Bootstrap 的第一步是生成一系列 bootstrap 经验样本 (Empirical Sample) (有时也被形象地称为 「伪样本」),每个样本都是初始数据的一次有放回抽样。通过对 经验样本 的计算,获得统计量的分布。例如,要进行 1000 次 bootstrap,求平均值的置信区间,可以对每个经验样本 计算平均值。这样就获得了 1000 个平均值。对这 1000 个平均值的分位数进行计算, 即可获得置信区间。已经证明,在初始样本足够大且初始样本是从母体中随机抽取的情况下,bootstrap 抽样能够无偏接近总体的分布。
Bootstrap 的基本步骤如下:
- Step 1: 采用有放回抽样方法从原始样本中抽取一定数量的子样本。
- Step 2: 根据抽出的样本计算想要的统计量。
- Step 3: 重复前两步 K 次,得到 K 个统计量的估计值。
- Step 4: 根据 K 个估计值获得统计量的分布,并计算置信区间。
1.1 有放回抽样
所谓 「有放回抽样」 (Samping with replacement) 指的是在逐个抽取个体时,每次被抽到的个体放回总体中后,再进行下次抽取的抽样方法。
举个例子,对于由 0.1 和 0.3 这两个数字构成的观测样本而言, 记为 S 0 = ( 0.1 , 0.3 ) S_0 = (0.1, 0.3) S0=(0.1,0.3)。则采用有放回抽样 (Bootstrapping),可以得到如下三种不同的经验样本: S 1 B S = ( 0.1 , 0.1 ) S_1^{BS} = (0.1,0.1) S