bootstrap基础

satadriver

已于 2023-12-23 09:48:03 修改

阅读量1k

点赞数 27

分类专栏：概率论和数理统计文章标签： bootstrap

于 2023-12-21 23:53:20 首次发布

本文链接：https://blog.csdn.net/m0_37567738/article/details/135142687

版权

概率论和数理统计专栏收录该内容

27 篇文章 1 订阅

订阅专栏

（一）bootstrap初识

bootstrap由美国数学家Efron于20世纪70年代创建。

bootstrap方法用于样本数较少时的数学统计和参数估计。其数学原理基于经验分布下的格里汶科定理。

经验分布函数：

设 $X_1,X_2,X_3,...,X_n$ 是总体F的一个样本，用S(x), $-\infty < x < +\infty$ 表示 $X_1,X_2,X_3,...,X_n$ 中不大于x的随机变量的个数，则经验分布函数为：
$F_n(x)=\frac{1}{n}S(x), -\infty < x < +\infty$

注意：
机器学习关于“评估方法”一节中多处提到的“自助法”即bootstrap抽样统计。

自助法的算法流程：

假设样本个数为m, 自助法(放回抽样)中，所有m个样本, 每一个样本都有一定几率未被抽中，概率为 $(1-\frac{1}{m})$ ，所有样本始终未被抽中的总体概率为：
$\lim_{m \to +\infty}(1-\frac{1}{m})^m = \lim_{m \to +\infty}(1-\frac{1}{m})^{-m(-1)} = \frac{1}{e} \approx 0.368$
抽样统计结束后，将所有始终未被抽中的样本抽取出来组成另外一个集合，当作验证集。而上述所有被抽中的样本当作测试集。此种方法又叫作“包外估计”。

$\color{red}格里汶科（Glivenko）定理：$

对于任意实数x当 $\to \infty$ 时 $F_n(x)$ 以概率1一致收敛于分布F(x),即：
$\{ \lim_{ n \to \infty} \quad \sup_{-\infty < x < \infty} | F_n(x) - F(x)| = 0\} = 1$

$\color{red}该定理的含义是：$

对于任意实数x当n充分大时，经验分布函数的任一观察值 $F_n(x)$ 与总体分布函数F(x)只有微小的差别，在实际上可以当多F(x)来使用。

证明：

对于任意x， $-\infty < x < \infty,S(x) \sim b(n,F(x))$ ,从而可知对于任意x有：
$E(F_n(x)) = E(\frac{S(x)}{n}) = \frac{1}{n}E(S(x)) = \frac{1}{n}E(n F(x)) = F(x)$

在实践中，bootstrap统计数据有效的前提是n足够大，一般情况下，n要大于1000（当然越大越好），因此bootstrap特别适合使用计算机来计算（假设n为 $10^8$ ，如果用人工统计那还不得累死！）。

另外，bootstrap方法还需要依赖于随即数表。已知n的前提下，随即数表的生成方式如下所述：

生成n个 $\in [0 \sim \frac{1}{n}]$ 的随机数。
$\times x + 1，\color{red} (若下标为0则不加1，否则加1)$
上述x就是所求的随机数值。

可参考如下c语言版随机数生成方法：https://editor.csdn.net/md/?articleId=130525806

以下知识来自于浙江大学版的《概率论与数理统计》一书第10章"Bootstrap方法"。

（二）估计量的标准误差的bootstrap估计

暂且为空

（三）估计量的均方误差的bootstrap估计

暂且为空

（三）估计量的偏差的bootstrap估计

暂且为空

偏差的定义：

$\color{red}设X是来自于总体F的样本，\hat \theta是参数\theta的估计量。\theta的估计\hat \theta关于\theta的偏差定义为：\\ \\ b =E(\hat \theta - \theta) = E(\hat \theta) - \theta$

satadriver

关注

27
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
bootstrap基础

bootstrap方法用于样本数较少时的数学统计和参数估计。其数学原理基于格里汶科定理。以下知识来自于浙江大学版的《概率论与数理统计》一书第10章"Bootstrap方法"。与总体分布函数F(x)只有微小的差别，在实际上可以当多F(x)来使用。bootstrap由美国数学家Efron于20世界70年代创建。对于任意实数x当n充分大时，经验分布函数的任一观察值。
复制链接

扫一扫