以下是Duke Coursera Inferential Statistics的笔记
- 本意:在没有别人的帮助下,完成一个不可能的任务
- 统计例子:只用样本的数据来估算一个总体参数
- Bootstrapping 流程:
- 取一个bootstrap sample:从一个从原始sample中抽取一个与其大小一致的随机sample(过程中会放回取到的data)
- 例如,原始sample是(1,2,3,4,5),那么一个可能的随机sample是(1,1,2,3,3)。
- 为什么采样后会放回?
- 因为我们是用替换抽样,所以每个样本都会与另一个略有不同,从而产生一个略有不同的样本统计。如果我们不进行替换,那么我们会一遍又一遍地得到同样的样本,同样的中位数。
- 计算bootstrap statistic:在bootstrap sample上计算得到的mean,median等等
- 重复前面两步以得到一个bootstrap分布(一个关于bootstrap statistic的分布)
- 取一个bootstrap sample:从一个从原始sample中抽取一个与其大小一致的随机sample(过程中会放回取到的data)
- 任务:估算population的median
- Percentile方法
- Standard Error方法 (更准确)
- Bootstrap 限制
- 没有什么严格的要求(例如CLT会要求独立等等)
- 如果bootstrap distribution极度稀疏或者往一边偏,那么bootstrap interval会不可靠
- 仍然需要一个具有代表性的sample
- Bootstrap vs. Sampling distribution
- Bootstrap是从sample中采样(会放回)
- Sampling distribution是从population中采样(会放回)
- 都是sample statistics的分布