放回抽样与不放回抽样带来的抽样平均误差的差别

不放回抽样的抽样平均误差总是小于放回抽样的抽样平均误差

对于放回抽样,样本各个数据之间是独立同分布的
因此,其抽样平均误差即为
σ 1 2 = v a r ( ∑ i = 1 n x i n ) = 1 n 2 ∑ v a r ( x i ) = 1 n σ 2 ( X ) \begin{aligned} \sigma_1^2&=var(\frac{\sum_{i=1}^{n}{x_i}}{n})\\ &=\frac{1}{n^2}\sum{var(x_i)}\\ &=\frac{1}{n}\sigma^2(X) \end{aligned} σ12=var(ni=1nxi)=n21var(xi)=n1σ2(X)
对于不放回抽样,样本数据之间并不独立,计算抽样平均误差如下
σ 2 2 = v a r ( ∑ i = 1 n x i n ) = E ( ∑ i = 1 n x i n − X ˉ ) 2 = 1 n 2 E ( ∑ i = 1 n x i − n X ˉ ) = 1 n 2 E [ ( x 1 − X ˉ ) + ( x 2 − X ˉ ) + . . . + ( x n − X ˉ ) ] 2 = 1 n 2 [ ∑ E ( x i − X ˉ ) 2 + ∑ i ≠ j E ( x i − X ˉ ) ( x j − X ˉ ) ] \begin{aligned} \sigma_2^2&=var(\frac{\sum_{i=1}^{n}{x_i}}{n})\\ &=E(\frac{\sum_{i=1}^{n}{x_i}}{n}-\bar{X})^2\\ &=\frac{1}{n^2}E(\sum_{i=1}^{n}{x_i}-n\bar{X})\\ &=\frac{1}{n^2}E[(x_1-\bar{X})+(x_2-\bar{X})+...+(x_n-\bar{X})]^2\\ &=\frac{1}{n^2}[\sum{E(x_i-\bar{X})^2}+\sum_{i\neq j}{E(x_i-\bar{X})(x_j-\bar{X})}] \end{aligned} σ22=var(ni=1nxi)=E(ni=1nxiXˉ)2=n21E(i=1nxinXˉ)=n21E[(x1Xˉ)+(x2Xˉ)+...+(xnXˉ)]2=n21[E(xiXˉ)2+i=jE(xiXˉ)(xjXˉ)]
其中
E ( x i − X ˉ ) 2 = ∑ i = 1 N P i ( X i − X ˉ ) 2 = ∑ i = 1 N 1 N ( X i − X ˉ ) 2 = σ 2 ( X ) \begin{aligned} E(x_i-\bar{X})^2 &=\sum_{i=1}^{N}{P_i}(X_i-\bar{X})^2\\ &=\sum_{i=1}^{N}{\frac{1}{N}}(X_i-\bar{X})^2\\ &=\sigma^2(X) \end{aligned} E(xiXˉ)2=i=1NPi(XiXˉ)2=i=1NN1(XiXˉ)2=σ2(X)
E ( x i − X ˉ ) ( x j − X ˉ ) = ∑ K ≠ L P K , L , ( X K − X ˉ ) ( X L − X ˉ ) = ∑ K ≠ L 1 N ( N − 1 ) ( X K − X ˉ ) ( X L − X ˉ ) = 1 N ( N − 1 ) ∑ K ≠ L ( X K − X ˉ ) ( X L − X ˉ ) = 1 N ( N − 1 ) [ [ ∑ ( x j − x ˉ ) ] 2 − ∑ ( x j − x ˉ ) 2 ] = − 1 N − 1 σ 2 ( X ) \begin{aligned} E(x_i-\bar{X})(x_j-\bar{X}) &=\sum_{K\neq L}{P_{K,L,}}(X_K-\bar{X})(X_L-\bar{X})\\ &=\sum_{K\neq L}{\frac{1}{N(N-1)}}(X_K-\bar{X})(X_L-\bar{X})\\ &=\frac{1}{N(N-1)}\sum_{K\neq L}{}(X_K-\bar{X})(X_L-\bar{X})\\ &=\frac{1}{N(N-1)}[[\sum{(x_j-\bar{x})}]^2-\sum(x_j-\bar{x})^2]\\ &=-\frac{1}{N-1}\sigma^2(X) \end{aligned} E(xiXˉ)(xjXˉ)=K=LPK,L,(XKXˉ)(XLXˉ)=K=LN(N1)1(XKXˉ)(XLXˉ)=N(N1)1K=L(XKXˉ)(XLXˉ)=N(N1)1[[(xjxˉ)]2(xjxˉ)2]=N11σ2(X)

σ 2 2 = 1 n 2 [ n σ 2 ( X ) − n ( n − 1 ) 1 N − 1 σ 2 ( X ) ] = N − n N − 1 1 n σ 2 ( X ) \begin{aligned} \sigma_2^2&=\frac{1}{n^2}[n\sigma^2(X)-n(n-1)\frac{1}{N-1}\sigma^2(X)]\\ &=\frac{N-n}{N-1}\frac{1}{n}\sigma^2(X) \end{aligned} σ22=n21[nσ2(X)n(n1)N11σ2(X)]=N1Nnn1σ2(X)
究其原因,在于不放回的抽样方式中,各个样本之间并不是独立的,相比于放回抽样时计算抽样平均误差只需要计算各个数据的方差,不放回的抽样还需要计算各个数据之间的协方差,可以证明该协方差为负,也可以相对直观地去进行理解:对于给定 X i = x i X_i=x_i Xi=xi X j X_j Xj的条件期望与与 x i x_i xi在总体均值 X ˉ \bar{X} Xˉ的两侧,因此认为二者协方差为负。
也从另一个角度去理解,由于放回抽样有可能抽到已经抽到过的个体,而不放回抽样一定会抽到不同个体,导致了不放回抽样一般而言能够获得更多的信息量,因而一致性上的表现会更强。

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值