Bootstrap重抽样方法
Bootstrap重抽样数据集的产生方式主要分为3种方法:
非参数重抽样 Non-parametric resampling
此方法不假设数据的分布或模型。数据表示为n个独立观测向量 y o b s y_{obs} yobs, 假设求参数 θ ^ ( y o b s ) \hat{\theta}(y_{obs}) θ^(yobs)的置信区间,非参数bootstrap抽样的步骤如下:
- 从 y o b s y_{obs} yobs中进行放回的重抽样 n n n次,得到bootstrap数据集,表示为 Y ∗ Y^* Y∗;
- 计算抽样数据集的统计量: θ ^ ∗ = θ ^ ( Y ∗ ) \hat{\theta}^* = \hat{\theta}(Y^*) θ^∗=θ^(Y∗)
- 重复步骤1,2总共 B B B次,得到 θ ^ ∗ \hat{\theta}^* θ^∗的bootstrap分布。
从排序后的系列 θ ^ 1 ∗ , θ ^ 2 ∗ , … , θ ^ B ∗ \hat{\theta}_1^*,\hat{\theta}_2^*,\ldots,\hat{\theta}_B^* θ^1∗,θ^2∗,…,θ^B∗,可以计算 θ ^ ∗ \hat{\theta}^* θ^∗的置信区间。
参数重抽样 Parametric resampling
- 根据数据计算总体 θ \theta θ的估计值 θ ^ \hat{\theta} θ^,方式比如采用极大似然估计;
- 把估计值 θ ^ \hat{\theta} θ^代入模型 F Y ( . ; θ ^ ) F_Y(.;\hat{\theta}) FY(.;θ^); 从模型抽取 n n n个观测,形成数据集 Y ∗ Y^* Y∗;
- 计算 θ ^ ∗ = θ ^ ( Y ∗ ) \hat{\theta}^* = \hat{\theta}(Y^*) θ^∗=θ^(Y∗);
- 重复2,3步 B B B次,得到估计量的参数bootstrap分布。
参数重抽样和非参数重抽样的主要区别在于bootstrap数据集 Y ∗ Y^* Y∗的生成,如果是从原始数据生成的,是非参数重抽样;如果是原始数据计算估计参数,然后把估计参数代入模型或分布,再生成数据集的,是参数重抽样。
半参数重抽样 Semi-parametric resampling
半参数重抽样是指模型 y = g ( β , x ) + r y=g(\beta,x)+r y=g(β,x)+r r r r是残差。
- 令 r ~ i = r i − r ˉ \tilde{r}_i=r_i - \bar{r} r~i=ri−rˉ,采用非参数方式重抽样方式得到 r 1 ∗ , r 2 ∗ , … , r n ∗ r_1^*, r_2^*, \ldots, r_n^* r1∗,r2∗,…,rn∗
- 计算bootstrap数据集(参数方法) y i ∗ = g ( β ^ , x ) + r i ∗ , i ∈ 1 , 2 , 3 , … , n y_i^*=g(\hat{\beta}, x) + r_i^*, \quad i\in 1,2,3,\ldots,n yi∗=g(β^,x)+ri∗,i∈1,2,3,…,n,得到 Y ∗ Y^* Y∗;
- 根据生成的数据集 Y ∗ Y^* Y∗, 计算 β ∗ \beta^* β∗
- 重复步骤1-3 B B B次,得到 β ∗ \beta^* β∗的bootstrap分布。
和参数重抽样相比,参数重抽样模型随机的数据来自正态分布 N ( 0 , σ 2 ) N(0, \sigma^2) N(0,σ2),半参数重抽样模型随机的数据来自残差(调整)非参数重抽样。