Bootstrap重抽样方法

Bootstrap重抽样方法

Bootstrap重抽样数据集的产生方式主要分为3种方法:

非参数重抽样 Non-parametric resampling

此方法不假设数据的分布或模型。数据表示为n个独立观测向量 y o b s y_{obs} yobs, 假设求参数 θ ^ ( y o b s ) \hat{\theta}(y_{obs}) θ^(yobs)的置信区间,非参数bootstrap抽样的步骤如下:

  1. y o b s y_{obs} yobs中进行放回的重抽样 n n n次,得到bootstrap数据集,表示为 Y ∗ Y^* Y
  2. 计算抽样数据集的统计量: θ ^ ∗ = θ ^ ( Y ∗ ) \hat{\theta}^* = \hat{\theta}(Y^*) θ^=θ^(Y)
  3. 重复步骤1,2总共 B B B次,得到 θ ^ ∗ \hat{\theta}^* θ^的bootstrap分布。

从排序后的系列 θ ^ 1 ∗ , θ ^ 2 ∗ , … , θ ^ B ∗ \hat{\theta}_1^*,\hat{\theta}_2^*,\ldots,\hat{\theta}_B^* θ^1,θ^2,,θ^B,可以计算 θ ^ ∗ \hat{\theta}^* θ^的置信区间。

参数重抽样 Parametric resampling

  1. 根据数据计算总体 θ \theta θ的估计值 θ ^ \hat{\theta} θ^,方式比如采用极大似然估计;
  2. 把估计值 θ ^ \hat{\theta} θ^代入模型 F Y ( . ; θ ^ ) F_Y(.;\hat{\theta}) FY(.;θ^); 从模型抽取 n n n个观测,形成数据集 Y ∗ Y^* Y;
  3. 计算 θ ^ ∗ = θ ^ ( Y ∗ ) \hat{\theta}^* = \hat{\theta}(Y^*) θ^=θ^(Y)
  4. 重复2,3步 B B B次,得到估计量的参数bootstrap分布。

参数重抽样和非参数重抽样的主要区别在于bootstrap数据集 Y ∗ Y^* Y的生成,如果是从原始数据生成的,是非参数重抽样;如果是原始数据计算估计参数,然后把估计参数代入模型或分布,再生成数据集的,是参数重抽样。

半参数重抽样 Semi-parametric resampling

半参数重抽样是指模型 y = g ( β , x ) + r y=g(\beta,x)+r y=g(β,x)+r r r r是残差。

  1. r ~ i = r i − r ˉ \tilde{r}_i=r_i - \bar{r} r~i=rirˉ,采用非参数方式重抽样方式得到 r 1 ∗ , r 2 ∗ , … , r n ∗ r_1^*, r_2^*, \ldots, r_n^* r1,r2,,rn
  2. 计算bootstrap数据集(参数方法) y i ∗ = g ( β ^ , x ) + r i ∗ , i ∈ 1 , 2 , 3 , … , n y_i^*=g(\hat{\beta}, x) + r_i^*, \quad i\in 1,2,3,\ldots,n yi=g(β^,x)+ri,i1,2,3,,n,得到 Y ∗ Y^* Y
  3. 根据生成的数据集 Y ∗ Y^* Y, 计算 β ∗ \beta^* β
  4. 重复步骤1-3 B B B次,得到 β ∗ \beta^* β的bootstrap分布。

和参数重抽样相比,参数重抽样模型随机的数据来自正态分布 N ( 0 , σ 2 ) N(0, \sigma^2) N(0,σ2),半参数重抽样模型随机的数据来自残差(调整)非参数重抽样。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值