(一)bootstrap初识
bootstrap由美国数学家Efron于20世纪70年代创建。
bootstrap方法用于样本数较少时的数学统计和参数估计。其数学原理基于经验分布下的格里汶科定理。
经验分布函数:
设
X
1
,
X
2
,
X
3
,
.
.
.
,
X
n
X_1,X_2,X_3,...,X_n
X1,X2,X3,...,Xn是总体F的一个样本,用S(x),
−
∞
<
x
<
+
∞
-\infty < x < +\infty
−∞<x<+∞表示
X
1
,
X
2
,
X
3
,
.
.
.
,
X
n
X_1,X_2,X_3,...,X_n
X1,X2,X3,...,Xn中不大于x的随机变量的个数,则经验分布函数为:
F
n
(
x
)
=
1
n
S
(
x
)
,
−
∞
<
x
<
+
∞
F_n(x)=\frac{1}{n}S(x), -\infty < x < +\infty
Fn(x)=n1S(x),−∞<x<+∞
注意:
机器学习关于“评估方法”一节中多处提到的“自助法”即bootstrap抽样统计。
自助法的算法流程:
- 假设样本个数为m, 自助法(放回抽样)中,所有m个样本, 每一个样本都有一定几率未被抽中,概率为
(
1
−
1
m
)
(1-\frac{1}{m})
(1−m1),所有样本始终未被抽中的总体概率为:
lim m → + ∞ ( 1 − 1 m ) m = lim m → + ∞ ( 1 − 1 m ) − m ( − 1 ) = 1 e ≈ 0.368 \lim_{m \to +\infty}(1-\frac{1}{m})^m = \lim_{m \to +\infty}(1-\frac{1}{m})^{-m(-1)} = \frac{1}{e} \approx 0.368 m→+∞lim(1−m1)m=m→+∞lim(1−m1)−m(−1)=e1≈0.368 - 抽样统计结束后,将所有始终未被抽中的样本抽取出来组成另外一个集合,当作验证集。而上述所有被抽中的样本当作测试集。此种方法又叫作“包外估计”。
格 里 汶 科 ( G l i v e n k o ) 定 理 : \color{red}格里汶科(Glivenko)定理: 格里汶科(Glivenko)定理:
对于任意实数x当
n
→
∞
n \to \infty
n→∞时
F
n
(
x
)
F_n(x)
Fn(x)以概率1一致收敛于分布F(x),即:
P
{
lim
n
→
∞
sup
−
∞
<
x
<
∞
∣
F
n
(
x
)
−
F
(
x
)
∣
=
0
}
=
1
P \{ \lim_{ n \to \infty} \quad \sup_{-\infty < x < \infty} | F_n(x) - F(x)| = 0\} = 1
P{n→∞lim−∞<x<∞sup∣Fn(x)−F(x)∣=0}=1
该 定 理 的 含 义 是 : \color{red}该定理的含义是: 该定理的含义是:
对于任意实数x当n充分大时,经验分布函数的任一观察值 F n ( x ) F_n(x) Fn(x)与总体分布函数F(x)只有微小的差别,在实际上可以当多F(x)来使用。
证明:
对于任意x,
−
∞
<
x
<
∞
,
S
(
x
)
∼
b
(
n
,
F
(
x
)
)
-\infty < x < \infty,S(x) \sim b(n,F(x))
−∞<x<∞,S(x)∼b(n,F(x)),从而可知对于任意x有:
E
(
F
n
(
x
)
)
=
E
(
S
(
x
)
n
)
=
1
n
E
(
S
(
x
)
)
=
1
n
E
(
n
F
(
x
)
)
=
F
(
x
)
E(F_n(x)) = E(\frac{S(x)}{n}) = \frac{1}{n}E(S(x)) = \frac{1}{n}E(n F(x)) = F(x)
E(Fn(x))=E(nS(x))=n1E(S(x))=n1E(nF(x))=F(x)
在实践中,bootstrap统计数据有效的前提是n足够大,一般情况下,n要大于1000(当然越大越好),因此bootstrap特别适合使用计算机来计算(假设n为 1 0 8 10^8 108,如果用人工统计那还不得累死!)。
另外,bootstrap方法还需要依赖于随即数表。已知n的前提下,随即数表的生成方式如下所述:
- 生成n个 x ∈ [ 0 ∼ 1 n ] x \in [0 \sim \frac{1}{n}] x∈[0∼n1]的随机数。
-
x
=
n
×
x
+
1
,
(
若
下
标
为
0
则
不
加
1
,
否
则
加
1
)
x = n \times x + 1,\color{red} (若下标为0则不加1,否则加1)
x=n×x+1,(若下标为0则不加1,否则加1)
上述x就是所求的随机数值。
可参考如下c语言版随机数生成方法:https://editor.csdn.net/md/?articleId=130525806
以下知识来自于浙江大学版的《概率论与数理统计》一书第10章"Bootstrap方法"。
(二)估计量的标准误差的bootstrap估计
暂且为空
(三)估计量的均方误差的bootstrap估计
暂且为空
(三)估计量的偏差的bootstrap估计
暂且为空
偏差的定义:
设 X 是 来 自 于 总 体 F 的 样 本 , θ ^ 是 参 数 θ 的 估 计 量 。 θ 的 估 计 θ ^ 关 于 θ 的 偏 差 定 义 为 : b = E ( θ ^ − θ ) = E ( θ ^ ) − θ \color{red}设X是来自于总体F的样本,\hat \theta是参数\theta的估计量。\theta的估计\hat \theta关于\theta的偏差定义为 :\\ \\ b =E(\hat \theta - \theta) = E(\hat \theta) - \theta 设X是来自于总体F的样本,θ^是参数θ的估计量。θ的估计θ^关于θ的偏差定义为:b=E(θ^−θ)=E(θ^)−θ