自举通过重复随机抽样并替换原始样本来生成一个测试统计量或一组测试统计量的经验分布。它允许您生成置信区间并测试统计假设,而不必假设特定的潜在理论分布。用示例来演示自举的逻辑是最容易的。假设您想要计算样本平均值的95%置信区间。您的样本有10个观测值,样本均值为40,样本标准差为5。如果您愿意假设均值的样本分布为正态分布,则可使用下式计算(1-α/2)%置信区间
其中t是具有n-1个自由度的t分布的上限1-α/2临界值。对于95%的置信区间,您有40-2.262(5/3.163)
但是如果你不愿意假设均值的抽样分布是正态分布呢?您可以改用自举方法:
1、从样本中随机选择10个观察值,每次选择后替换。有些观测可能会被多次选择,而有些可能根本不会被选择。
2、计算并记录样本均值。
3、将前两个步骤重复1000次。
4、将1000个样本均值从小到大排序。
5、求代表第2.5个百分位数和97.5个百分位数的样本均值。在本例中,它是自下而上的第25个数字。这是你95%的置信限度。
在目前的情况下,样本均值可能是正态分布的,您从bootstrap方法中获得的收益很小。然而,在许多情况下,自举方法是有优势的。如果您想要样本中位数的置信区间,或两个样本中位数之间的差值,该怎么办?这里没有简单的正态理论公式,自举是可选择的方法。如果基础分布未知,如果异常值是个问题,如果样本量很小,或者如果参数方法不存在,自举通常可以提供一种生成置信区间和测试假设的有用方法。
使用boot包做自举
boot包为自举和相关的重采样方法提供了广泛的便利。您可以自举单个统计量(例如,中位数)或一组统计量(例如,一组回归系数)。确保在第一次使用之前下载并安装引导包:install.Packages(“boot”)。自举过程看起来很复杂,但是一旦您回顾了示例,它就会变得很有意义。通常,自举涉及三个主要步骤:
1、编写