放回抽样与不放回抽样带来的抽样平均误差的差别

胡图图 Daffy

已于 2023-03-15 10:36:26 修改

阅读量1.4k

点赞数 1

文章标签：概率论

于 2023-03-14 01:47:59 首次发布

本文链接：https://blog.csdn.net/lwmhtt/article/details/129509231

版权

不放回抽样的抽样平均误差总是小于放回抽样的抽样平均误差

对于放回抽样，样本各个数据之间是独立同分布的
因此，其抽样平均误差即为
$\begin{aligned} \sigma_1^2&=var(\frac{\sum_{i=1}^{n}{x_i}}{n})\\ &=\frac{1}{n^2}\sum{var(x_i)}\\ &=\frac{1}{n}\sigma^2(X) \end{aligned}$
对于不放回抽样，样本数据之间并不独立，计算抽样平均误差如下
$\begin{aligned} \sigma_2^2&=var(\frac{\sum_{i=1}^{n}{x_i}}{n})\\ &=E(\frac{\sum_{i=1}^{n}{x_i}}{n}-\bar{X})^2\\ &=\frac{1}{n^2}E(\sum_{i=1}^{n}{x_i}-n\bar{X})\\ &=\frac{1}{n^2}E[(x_1-\bar{X})+(x_2-\bar{X})+...+(x_n-\bar{X})]^2\\ &=\frac{1}{n^2}[\sum{E(x_i-\bar{X})^2}+\sum_{i\neq j}{E(x_i-\bar{X})(x_j-\bar{X})}] \end{aligned}$
其中
$\begin{aligned} E(x_i-\bar{X})^2 &=\sum_{i=1}^{N}{P_i}(X_i-\bar{X})^2\\ &=\sum_{i=1}^{N}{\frac{1}{N}}(X_i-\bar{X})^2\\ &=\sigma^2(X) \end{aligned}$
$\begin{aligned} E(x_i-\bar{X})(x_j-\bar{X}) &=\sum_{K\neq L}{P_{K,L,}}(X_K-\bar{X})(X_L-\bar{X})\\ &=\sum_{K\neq L}{\frac{1}{N(N-1)}}(X_K-\bar{X})(X_L-\bar{X})\\ &=\frac{1}{N(N-1)}\sum_{K\neq L}{}(X_K-\bar{X})(X_L-\bar{X})\\ &=\frac{1}{N(N-1)}[[\sum{(x_j-\bar{x})}]^2-\sum(x_j-\bar{x})^2]\\ &=-\frac{1}{N-1}\sigma^2(X) \end{aligned}$
则
$\begin{aligned} \sigma_2^2&=\frac{1}{n^2}[n\sigma^2(X)-n(n-1)\frac{1}{N-1}\sigma^2(X)]\\ &=\frac{N-n}{N-1}\frac{1}{n}\sigma^2(X) \end{aligned}$
究其原因，在于不放回的抽样方式中，各个样本之间并不是独立的，相比于放回抽样时计算抽样平均误差只需要计算各个数据的方差，不放回的抽样还需要计算各个数据之间的协方差，可以证明该协方差为负，也可以相对直观地去进行理解：对于给定 $X_i=x_i$ ， $X_j$ 的条件期望与与 $x_i$ 在总体均值 $\bar{X}$ 的两侧，因此认为二者协方差为负。
也从另一个角度去理解，由于放回抽样有可能抽到已经抽到过的个体，而不放回抽样一定会抽到不同个体，导致了不放回抽样一般而言能够获得更多的信息量，因而一致性上的表现会更强。