《5分钟说完一个概念》：什么是Bootstrap采用

最新推荐文章于 2024-07-10 17:13:11 发布

糖甜甜甜74

最新推荐文章于 2024-07-10 17:13:11 发布

阅读量561

点赞数

文章标签：数据分析统计学人工智能 activiti bootstrap

本文链接：https://blog.csdn.net/Pylady/article/details/118124799

版权

想知道中国人的平均身高（群体均值），群体方差为。每次抽样 1000 人，抽样了次。每次抽样的 1000人的平均身高是一次随机抽样，这次抽样得到的平均身高是一个样本，样本容量为而不是 1000。每次抽样得出的“平均身高”都是不一样的，这次不一样的“平均身高”组成了一个均值的样本分布，或称为样本均值的抽样分布；这次不一样的“身高标准差”组成了一个标准差的样本分布，或称为样本标准差的抽样分布。这个分布有自己的均值和标准差 (都是指变量) 。对于抽样分布来说，这个均值的样本分布的标准差就是均值的标准误。这个标准差的样本分布的标准差就是标准差的标准误。

标准差是表示个体间变异大小的指标，对于抽样则是指一次抽样中个体分数间的离散程度，反映了整个样本对样本平均数的离散程度，是 数据精密度 的衡量指标，用于 描述统计；
标准误反映样本平均数对总体平均数的变异程度，对于抽样则是指多次抽样得到多个样本的均值间的离散程度，从而反映抽样误差的大小（样本均值对总体均值的代表性），是度量 结果精密度 的指标，用于 推论统计。

根据中心极限定理：样本均值的抽样分布是所有的样本均值形成的分布，即的概率分布。样本均值的抽样分布在形状上却是对称的。随着样本量n的增大，不论原来的总体是否服从正态分布，样本均值的抽样分布都将趋于正态分布，其分布的数学期望为总体均值，方差为总体方差的。

也就是说，当趋于无穷大时，服从，样本均值服从的正态分布的均值就是群体均值，而样本均值服从的正态分布的方差为群体方差的分之一，也就是或者写成，即印证了第一段的最后一句话：这个均值的样本分布的标准差就是均值的标准误。最后总结下：抽样分布推论出均值，置信区间为。

置信区间是一种常用的区间估计方法，分别以统计量的置信上限和置信下限为上下界构成的区间。对于一组给定的样本数据，其平均值为，标准偏差为，则其整体数据的平均值的置信区间为，样本统计量分布的标准差等于统计量的标准误，即，那么置信区间还可以写做，有时候总体标准差未知，可以用样本标准差代替总体标准差，则置信区间为，其中为非置信水平在正态分布内的覆盖面积，即为对应的标准分数。

随机抽样

上面说的“多次抽样”及其抽样分布其实只是理论上的，利用公式计算标准误并不需要真正获得一个这样的分布。但利用重抽样技术可以真正获得一个抽样分布——当样本的正态分布假设不满足或者样本量太小，直接使用标准误公式来计算会存在较大的偏差和不稳定性，这时我们就会采用 bootstrap 重抽样法来模拟出一个真正意义上的抽样分布。Bootstrap 方法从一个给定的样本中有放回的均匀抽样，也就是说，每当选中一个样本，它等可能地被再次选中并被再次添加到训练集中。具体来说，对于一个样本量为的样本，重复进行多次（一般1000~5000次）有放回随机抽样，每次抽样时，样本量也均为，每次计算出我们关注的统计量（如均值），从而可以真正获得一个关于这个统计量的抽样分布。

基于这个真实的分布，我们就能:

通过抽样分布的标准差（实际上是样本均值或回归系数等统计量的离散程度，而非个体分数的标准差）直接获得标准误。
通过其 2.5% 和 97.5% 的百分位数直接获得 95% 的置信区间。

Bootstrap方法

以 A/A 实验为例，比如我们想计算某指标均值的波动区间，以中心极限定理为原理的方法是先进行大量的 A/A 实验，每个实验计算得到样本均值组成一个新的均值样本，然后计算得到其置信区间；而 bootstrap 方法，则是进行一个 A/A 实验来获取一个大样本，从这个样本中有放回的抽样计算每次抽样的均值，其 2.5% 和 97.5% 的百分位数直接获得 95% 的置信区间。

一些误解：bootstrap 不创建数据。它实际上所做的是估计统计数据、置信区间，并在广泛的场景中进行假设检验，即使现有的统计理论没有涵盖这些场景。还有一些完全无法避免的限制：

输入必须是总体的随机样本。没有解决方法。如果样本不是随机的，则它不具有代表性，因此该方法将失败。
非常小的样本仍然是一个问题。我们不能拉伸事物并从无到有创造数据。Bootstrap 引入了一定数量的方法固有的变化。大部分来自原始样本的选择，只有一小部分来自重新采样过程。因此，样本越大越好。小样本会严重损害自举结果的可靠性。
一些统计量本质上更难。例如，中位数或分位数有问题，除非样本量非常大。

糖甜甜甜74

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《5分钟说完一个概念》：什么是Bootstrap采用

想知道中国人的平均身高（群体均值），群体方差为。每次抽样 1000 人，抽样了次。每次抽样的 1000人的平均身高是一次随机抽样，这次抽样得到的平均身高是一个样本，样本容量...
复制链接

扫一扫