不放回抽样的抽样平均误差总是小于放回抽样的抽样平均误差
对于放回抽样,样本各个数据之间是独立同分布的
因此,其抽样平均误差即为
σ
1
2
=
v
a
r
(
∑
i
=
1
n
x
i
n
)
=
1
n
2
∑
v
a
r
(
x
i
)
=
1
n
σ
2
(
X
)
\begin{aligned} \sigma_1^2&=var(\frac{\sum_{i=1}^{n}{x_i}}{n})\\ &=\frac{1}{n^2}\sum{var(x_i)}\\ &=\frac{1}{n}\sigma^2(X) \end{aligned}
σ12=var(n∑i=1nxi)=n21∑var(xi)=n1σ2(X)
对于不放回抽样,样本数据之间并不独立,计算抽样平均误差如下
σ
2
2
=
v
a
r
(
∑
i
=
1
n
x
i
n
)
=
E
(
∑
i
=
1
n
x
i
n
−
X
ˉ
)
2
=
1
n
2
E
(
∑
i
=
1
n
x
i
−
n
X
ˉ
)
=
1
n
2
E
[
(
x
1
−
X
ˉ
)
+
(
x
2
−
X
ˉ
)
+
.
.
.
+
(
x
n
−
X
ˉ
)
]
2
=
1
n
2
[
∑
E
(
x
i
−
X
ˉ
)
2
+
∑
i
≠
j
E
(
x
i
−
X
ˉ
)
(
x
j
−
X
ˉ
)
]
\begin{aligned} \sigma_2^2&=var(\frac{\sum_{i=1}^{n}{x_i}}{n})\\ &=E(\frac{\sum_{i=1}^{n}{x_i}}{n}-\bar{X})^2\\ &=\frac{1}{n^2}E(\sum_{i=1}^{n}{x_i}-n\bar{X})\\ &=\frac{1}{n^2}E[(x_1-\bar{X})+(x_2-\bar{X})+...+(x_n-\bar{X})]^2\\ &=\frac{1}{n^2}[\sum{E(x_i-\bar{X})^2}+\sum_{i\neq j}{E(x_i-\bar{X})(x_j-\bar{X})}] \end{aligned}
σ22=var(n∑i=1nxi)=E(n∑i=1nxi−Xˉ)2=n21E(i=1∑nxi−nXˉ)=n21E[(x1−Xˉ)+(x2−Xˉ)+...+(xn−Xˉ)]2=n21[∑E(xi−Xˉ)2+i=j∑E(xi−Xˉ)(xj−Xˉ)]
其中
E
(
x
i
−
X
ˉ
)
2
=
∑
i
=
1
N
P
i
(
X
i
−
X
ˉ
)
2
=
∑
i
=
1
N
1
N
(
X
i
−
X
ˉ
)
2
=
σ
2
(
X
)
\begin{aligned} E(x_i-\bar{X})^2 &=\sum_{i=1}^{N}{P_i}(X_i-\bar{X})^2\\ &=\sum_{i=1}^{N}{\frac{1}{N}}(X_i-\bar{X})^2\\ &=\sigma^2(X) \end{aligned}
E(xi−Xˉ)2=i=1∑NPi(Xi−Xˉ)2=i=1∑NN1(Xi−Xˉ)2=σ2(X)
E
(
x
i
−
X
ˉ
)
(
x
j
−
X
ˉ
)
=
∑
K
≠
L
P
K
,
L
,
(
X
K
−
X
ˉ
)
(
X
L
−
X
ˉ
)
=
∑
K
≠
L
1
N
(
N
−
1
)
(
X
K
−
X
ˉ
)
(
X
L
−
X
ˉ
)
=
1
N
(
N
−
1
)
∑
K
≠
L
(
X
K
−
X
ˉ
)
(
X
L
−
X
ˉ
)
=
1
N
(
N
−
1
)
[
[
∑
(
x
j
−
x
ˉ
)
]
2
−
∑
(
x
j
−
x
ˉ
)
2
]
=
−
1
N
−
1
σ
2
(
X
)
\begin{aligned} E(x_i-\bar{X})(x_j-\bar{X}) &=\sum_{K\neq L}{P_{K,L,}}(X_K-\bar{X})(X_L-\bar{X})\\ &=\sum_{K\neq L}{\frac{1}{N(N-1)}}(X_K-\bar{X})(X_L-\bar{X})\\ &=\frac{1}{N(N-1)}\sum_{K\neq L}{}(X_K-\bar{X})(X_L-\bar{X})\\ &=\frac{1}{N(N-1)}[[\sum{(x_j-\bar{x})}]^2-\sum(x_j-\bar{x})^2]\\ &=-\frac{1}{N-1}\sigma^2(X) \end{aligned}
E(xi−Xˉ)(xj−Xˉ)=K=L∑PK,L,(XK−Xˉ)(XL−Xˉ)=K=L∑N(N−1)1(XK−Xˉ)(XL−Xˉ)=N(N−1)1K=L∑(XK−Xˉ)(XL−Xˉ)=N(N−1)1[[∑(xj−xˉ)]2−∑(xj−xˉ)2]=−N−11σ2(X)
则
σ
2
2
=
1
n
2
[
n
σ
2
(
X
)
−
n
(
n
−
1
)
1
N
−
1
σ
2
(
X
)
]
=
N
−
n
N
−
1
1
n
σ
2
(
X
)
\begin{aligned} \sigma_2^2&=\frac{1}{n^2}[n\sigma^2(X)-n(n-1)\frac{1}{N-1}\sigma^2(X)]\\ &=\frac{N-n}{N-1}\frac{1}{n}\sigma^2(X) \end{aligned}
σ22=n21[nσ2(X)−n(n−1)N−11σ2(X)]=N−1N−nn1σ2(X)
究其原因,在于不放回的抽样方式中,各个样本之间并不是独立的,相比于放回抽样时计算抽样平均误差只需要计算各个数据的方差,不放回的抽样还需要计算各个数据之间的协方差,可以证明该协方差为负,也可以相对直观地去进行理解:对于给定
X
i
=
x
i
X_i=x_i
Xi=xi,
X
j
X_j
Xj的条件期望与与
x
i
x_i
xi在总体均值
X
ˉ
\bar{X}
Xˉ的两侧,因此认为二者协方差为负。
也从另一个角度去理解,由于放回抽样有可能抽到已经抽到过的个体,而不放回抽样一定会抽到不同个体,导致了不放回抽样一般而言能够获得更多的信息量,因而一致性上的表现会更强。