bootstrap基础

(一)bootstrap初识

bootstrap由美国数学家Efron于20世纪70年代创建。

bootstrap方法用于样本数较少时的数学统计和参数估计。其数学原理基于经验分布下的格里汶科定理。

经验分布函数

X 1 , X 2 , X 3 , . . . , X n X_1,X_2,X_3,...,X_n X1,X2,X3,...,Xn是总体F的一个样本,用S(x), − ∞ < x < + ∞ -\infty < x < +\infty <x<+表示 X 1 , X 2 , X 3 , . . . , X n X_1,X_2,X_3,...,X_n X1,X2,X3,...,Xn中不大于x的随机变量的个数,则经验分布函数为:
F n ( x ) = 1 n S ( x ) , − ∞ < x < + ∞ F_n(x)=\frac{1}{n}S(x), -\infty < x < +\infty Fn(x)=n1S(x),<x<+

注意:
机器学习关于“评估方法”一节中多处提到的“自助法”即bootstrap抽样统计。

自助法的算法流程:

  1. 假设样本个数为m, 自助法(放回抽样)中,所有m个样本, 每一个样本都有一定几率未被抽中,概率为 ( 1 − 1 m ) (1-\frac{1}{m}) (1m1),所有样本始终未被抽中的总体概率为:
    lim ⁡ m → + ∞ ( 1 − 1 m ) m = lim ⁡ m → + ∞ ( 1 − 1 m ) − m ( − 1 ) = 1 e ≈ 0.368 \lim_{m \to +\infty}(1-\frac{1}{m})^m = \lim_{m \to +\infty}(1-\frac{1}{m})^{-m(-1)} = \frac{1}{e} \approx 0.368 m+lim(1m1)m=m+lim(1m1)m(1)=e10.368
  2. 抽样统计结束后,将所有始终未被抽中的样本抽取出来组成另外一个集合,当作验证集。而上述所有被抽中的样本当作测试集。此种方法又叫作“包外估计”。

格 里 汶 科 ( G l i v e n k o ) 定 理 : \color{red}格里汶科(Glivenko)定理: Glivenko

对于任意实数x当 n → ∞ n \to \infty n F n ( x ) F_n(x) Fn(x)以概率1一致收敛于分布F(x),即:
P { lim ⁡ n → ∞ sup ⁡ − ∞ < x < ∞ ∣ F n ( x ) − F ( x ) ∣ = 0 } = 1 P \{ \lim_{ n \to \infty} \quad \sup_{-\infty < x < \infty} | F_n(x) - F(x)| = 0\} = 1 P{nlim<x<supFn(x)F(x)=0}=1

该 定 理 的 含 义 是 : \color{red}该定理的含义是:

对于任意实数x当n充分大时,经验分布函数的任一观察值 F n ( x ) F_n(x) Fn(x)与总体分布函数F(x)只有微小的差别,在实际上可以当多F(x)来使用。

证明:

对于任意x, − ∞ < x < ∞ , S ( x ) ∼ b ( n , F ( x ) ) -\infty < x < \infty,S(x) \sim b(n,F(x)) <x<,S(x)b(n,F(x)),从而可知对于任意x有:
E ( F n ( x ) ) = E ( S ( x ) n ) = 1 n E ( S ( x ) ) = 1 n E ( n F ( x ) ) = F ( x ) E(F_n(x)) = E(\frac{S(x)}{n}) = \frac{1}{n}E(S(x)) = \frac{1}{n}E(n F(x)) = F(x) E(Fn(x))=E(nS(x))=n1E(S(x))=n1E(nF(x))=F(x)

在实践中,bootstrap统计数据有效的前提是n足够大,一般情况下,n要大于1000(当然越大越好),因此bootstrap特别适合使用计算机来计算(假设n为 1 0 8 10^8 108,如果用人工统计那还不得累死!)。

另外,bootstrap方法还需要依赖于随即数表。已知n的前提下,随即数表的生成方式如下所述:

  1. 生成n个 x ∈ [ 0 ∼ 1 n ] x \in [0 \sim \frac{1}{n}] x[0n1]的随机数。
  2. x = n × x + 1 , ( 若 下 标 为 0 则 不 加 1 , 否 则 加 1 ) x = n \times x + 1,\color{red} (若下标为0则不加1,否则加1) x=n×x+1(011)
    上述x就是所求的随机数值。

可参考如下c语言版随机数生成方法:https://editor.csdn.net/md/?articleId=130525806

以下知识来自于浙江大学版的《概率论与数理统计》一书第10章"Bootstrap方法"。

(二)估计量的标准误差的bootstrap估计

暂且为空

(三)估计量的均方误差的bootstrap估计

暂且为空

(三)估计量的偏差的bootstrap估计

暂且为空

偏差的定义:

设 X 是 来 自 于 总 体 F 的 样 本 , θ ^ 是 参 数 θ 的 估 计 量 。 θ 的 估 计 θ ^ 关 于 θ 的 偏 差 定 义 为 : b = E ( θ ^ − θ ) = E ( θ ^ ) − θ \color{red}设X是来自于总体F的样本,\hat \theta是参数\theta的估计量。\theta的估计\hat \theta关于\theta的偏差定义为 :\\ \\ b =E(\hat \theta - \theta) = E(\hat \theta) - \theta XFθ^θθθ^θb=E(θ^θ)=E(θ^)θ

  • 27
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值