Bootstraping(自助抽样法–区间估计):
名字来自成语“pull up by your own bootstraps”,意思是依靠你自己的资源,称为自助法,
它是一种有放回的抽样方法,
它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。
其核心思想和基本步骤如下:
(1) 采用重抽样技术从原始样本中抽取一定数量的样本,此过程允许重复抽样。
(2)根据抽出的样本计算给定的统计量T。
(3)重复上述N次(一般大于1000),得到N个统计量T。
(4)计算上述N个统计量T的样本方差,得到统计量的方差。
应该说Bootstrap是现代统计学较为流行的一种统计方法,在小样本时效果很好。通过方差的估计可以构造置信区间等,其运用范围得到进一步延伸。
假设给定的数据集包含d个样本。
该数据集有放回地抽样d次,训练集中没出现的概率就是d次都未被选中的概率,即(1-1/d)d。
当d趋于无穷大时,这一概率就将趋近于e(-1)=0.368,
所以留在训练集中的样本大概占原来数据集的63.2%。
Jackknife(区间估计):
和上面要介绍的Bootstrap功能类似,只是有一点细节不一样,即每次从样本中抽样时候只是去除几个样本(而不是抽样),就像小刀一样割去一部分。
(pku, sewm,shinningmonster.)