1. 经验分布函数
当总体分布函数未知,但样本容量足够大时,可以用经验分布函数替代。经验分布函数的定义为:
设
X
1
X_1
X1,
X
2
X_2
X2, …,
X
n
X_n
Xn 为总体分布的一个样本,
−
∞
<
x
<
∞
-\infty<x<\infty
−∞<x<∞,用
S
(
x
)
S(x)
S(x) 表示
X
1
X_1
X1,
X
2
X_2
X2, …,
X
n
X_n
Xn 中不大于
x
x
x 的随机变量的个数,则定义经验分布函数为
F
n
(
x
)
F_n(x)
Fn(x) 为:
F
n
(
x
)
=
1
n
S
(
x
)
,
−
∞
<
x
<
∞
F_n(x)=\frac{1}{n}S(x), \quad -\infty<x<\infty
Fn(x)=n1S(x),−∞<x<∞
当 n → ∞ n\rightarrow \infty n→∞ 时,可以用经验分布函数 F n ( x ) F_n(x) Fn(x) 代替总体分布函数 F ( X ) F(X) F(X)。举例:
2. bootstrap 方法
经常在 spss 中看到这个方法。当总体分布 F F F 未知时,但已经有一个容量为 n n n 的来自 F F F 的样本,通过对样本再次放回抽样,来估计待估参数 θ \theta θ 以及它的置信区间;由于总体分布 F F F 未知,无法产生模拟样本,也就无法计算 θ \theta θ 的估计量 θ ^ \hat{\theta} θ^,bootstrap 方法的基本思想就是用 bootstrap 估计量 θ ^ i ∗ \hat{\theta}^\ast_i θ^i∗ 代替 θ ^ \hat{\theta} θ^。
当总体分布已知,对于包含未知参数统计量的置信区间,也可以用 bootstrap 方法。
估计参数值时的一般步骤为:
- 自原始数据样本 x = ( x 1 , x 2 , … , x n ) \textbf{x}=(x_1, x_2, \dots, x_n) x=(x1,x2,…,xn) 按放回抽样的方法,抽得容量为 n 的样本 x ∗ = ( x 1 ∗ , x 2 ∗ , … , x n ∗ ) \textbf{x}^\ast=(x^\ast_1, x^\ast_2, \dots, x^\ast_n) x∗=(x1∗,x2∗,…,xn∗) (又称为 bootstrap 样本)。
- 相继地、独立地求出 B B B 个 ( B ≥ 1000 B\geq 1000 B≥1000) 容量为 n 的 bootstrap 样本,计算 θ ^ i ∗ = θ ^ ( x 1 ∗ , x 2 ∗ , … , x n ∗ ) , i = 1 , 2 , … , B \hat{\theta}^\ast_i=\hat{\theta}(x^\ast_1, x^\ast_2, \dots, x^\ast_n), i=1, 2,\dots, B θ^i∗=θ^(x1∗,x2∗,…,xn∗),i=1,2,…,B。 ( θ ^ i ∗ \hat{\theta}^\ast_i θ^i∗ 称为 θ \theta θ 的第 i i i 个 bootstrap 估计)
估计置信水平为 1 − α 1-\alpha 1−α 置信区间时,在上面两个步骤之外,继续进行下列步骤:
- 对于每个 bootstrap 样本求出的估计值
θ
^
i
∗
\hat{\theta}^\ast_i
θ^i∗,按照从小到大排序:
θ ^ ( 1 ) ∗ ≤ θ ^ ( 2 ) ∗ ≤ ⋯ ≤ θ ^ ( B ) ∗ \hat{\theta}^\ast_{(1)}\leq \hat{\theta}^\ast_{(2)}\leq\dots\leq \hat{\theta}^\ast_{(B)} θ^(1)∗≤θ^(2)∗≤⋯≤θ^(B)∗ - 取
k
1
=
⌊
B
×
α
2
⌋
k_1=\lfloor B\times {\alpha}{2}\rfloor
k1=⌊B×α2⌋,
k
2
=
⌈
B
×
(
1
−
α
2
)
⌉
k_2=\lceil B\times (1-\frac{\alpha}{2})\rceil
k2=⌈B×(1−2α)⌉(分别为向下取整与向上取整),则置信水平为
1
−
α
1-\alpha
1−α 的近似置信区间为:
( θ ^ ( k 1 ) ∗ , θ ^ ( k 2 ) ∗ ) ( \hat{\theta}^\ast_{(k_1)}, ~~\hat{\theta}^\ast_{(k_2)}) (θ^(k1)∗, θ^(k2)∗)
具体可以参看浙大概率课本第十章。