bootstrapping
motivation
很多统计学的东西都是基于各种假设之下的,当我们不想对数据附加太强硬的情况下,仍然想知道这些数据的分布,此时便是这种方法的用武之地
(但个人还是不太懂这个动机,bootstrap难道没有假设吗,他的性质不需要假设就能证明吗?)
implement
个人目前了解到两种用法:
不过这只是两种用法,其内涵是一致的:
方法一:来自数据科学课堂
当我们已经具有一组从母体中抽取的n个样本时,对样本进行n次有放回的抽样,之后将所得的新样本求均值,所获得的均值视为一个从母体中重新抽取的样本;如此重复m次,则我们在没有重新抽取的情况下,获得了m个新样本
不过需要注意,我们是从样本中抽取的,本质上并没有获取任何新的信息
另外需要初始的真样本的数据足够好,不能太极端
(额但是,这种求均值的方法。。。根本取不到样本两侧的极端值啊。。不过老师也说过,这玩意儿作用有限,只是在样本数量不够的情况下用吧可能)
方法二:来自统计计算课件
这种方式是对于方法一的进阶:
当我们感兴趣的变量是由我们取得的这组样本计算而来的,比如均值?那这样其实可以看作我们只得到了一个样本而已,在没有任何假设的情况下,我们根本无法知道这个变量的分布
(也许我们