在分层随机抽样中的总体均值和总体方差

在分层随机抽样中的总体均值和总体方差

引子

\qquad 在日常工作学习和生产生活中,我们常常会遇到已知各层样本的均值和方差求总体均值和方差的问题,本文给出了对于此类问题的一般解法及证明。

引例1

\qquad 某高中兴趣小组想调查本校各个年级学生的平均身高和方差以及总体学生的平均身高和方差。现已知他们采用分层随机抽样的方法抽取了:

  • 高一学生100名,平均身高163cm,方差3.3;
  • 高二学生90名,平均身高165cm,方差2.0;
  • 高三学生110名,平均身高168cm,方差4.2。

\qquad 请问全校所有学生的平均身高和方差分别为多少?

引例2

\qquad 某市有5所高中进行了一场大联考,各校的总成绩统计如下:

高中编号抽取人数占比总成绩均值总成绩方差
115%44328
223%45033
322%47023
416%45340
524%46643

\qquad 求这次考试这五所学校的考生的总成绩的平均值和方差分别为多少?

问题抽象

在分层随机抽样中,已知:

  • 总共分为 L L L
  • 各层样本占比: ω 1 , ω 2 , . . . , ω L \omega_1,\omega_2,...,\omega_L ω1,ω2,...,ωL
  • 各层平均数: x 1 ‾ , x 2 ‾ , . . . , x L ‾ \overline{x_1},\overline{x_2},...,\overline{x_L} x1,x2,...,xL
  • 各层方差: s 1 2 , s 2 2 , . . . , s L 2 s^2_1,s^2_2,...,s^2_L s12,s22,...,sL2

求解:总体均值 x ‾ \overline{x} x 和总体方差 s 2 s^2 s2

结论

x ‾ = ∑ i = 1 L ω i x i ‾ s 2 = ∑ i = 1 L ω i [ s i 2 + ( x i ‾ − x ‾ ) 2 ] \begin{align} \overline{x} &= \sum\limits_{i=1}^{L}\omega_i \overline{x_i} \nonumber \\ s^2 &= \sum\limits_{i = 1}^{L} \omega_i \left[ s^2_i + (\overline{x_i} - \overline{x})^2 \right] \nonumber \end{align} xs2=i=1Lωixi=i=1Lωi[si2+(xix)2]

求解过程

设:

  • 各层样本量: n 1 , n 2 , . . . , n L n_1,n_2,...,n_L n1,n2,...,nL
  • i i i 层的 n i n_i ni 个样本数据分别为: x i 1 , x i 2 , . . . , x i n i x_{i1},x_{i2},...,x_{in_i} xi1,xi2,...,xini

则可知:

  • 总样本量: N = ∑ i = 1 L n i N = \sum\limits_{i=1}^{L}n_i N=i=1Lni
  • 各层样本占比: ω i = n i N \omega_i = \frac{n_i}{N} ωi=Nni

由平均数定义,得:
x ‾ = 1 N ∑ i = 1 L n i x i ‾ = ∑ i = 1 L ω i x i ‾ \overline{x} = \frac{1}{N} \sum\limits_{i=1}^{L}n_i \overline{x_i} = \sum\limits_{i=1}^{L}\omega_i \overline{x_i} x=N1i=1Lnixi=i=1Lωixi
由方差定义,得:
s 2 = 1 N ∑ i = 1 L ∑ j = 1 n i ( x i j − x ‾ ) 2 = 1 N ∑ i = 1 L ∑ j = 1 n i ( x i j − x i ‾ + x i ‾ − x ‾ ) 2 = 1 N ∑ i = 1 L [ ∑ j = 1 n i ( x i j − x i ‾ ) 2 + ∑ j = 1 n i 2 ( x i j − x i ‾ ) ( x i ‾ − x ‾ ) + ∑ j = 1 n i ( x i ‾ − x ‾ ) 2 ] \begin{align} s^2 &= \frac{1}{N} \sum\limits_{i=1}^{L} \sum\limits_{j=1}^{n_i} (x_{ij} - \overline{x})^2 \nonumber \\ &= \frac{1}{N} \sum\limits_{i=1}^{L} \sum\limits_{j=1}^{n_i} (x_{ij} - \overline{x_i} + \overline{x_i} - \overline{x})^2 \nonumber \\ &= \frac{1}{N} \sum\limits_{i=1}^{L} \left[ \sum\limits_{j=1}^{n_i} (x_{ij} - \overline{x_i})^2 + \sum\limits_{j=1}^{n_i} 2(x_{ij} - \overline{x_i})(\overline{x_i} - \overline{x}) + \sum\limits_{j=1}^{n_i} (\overline{x_i} - \overline{x})^2 \right] \nonumber \end{align} s2=N1i=1Lj=1ni(xijx)2=N1i=1Lj=1ni(xijxi+xix)2=N1i=1L[j=1ni(xijxi)2+j=1ni2(xijxi)(xix)+j=1ni(xix)2]
由于
x i ‾ = ∑ j = 1 n i x i j n i \overline{x_i} = \frac{\sum\limits_{j=1}^{n_i} x_{ij}}{n_i} xi=nij=1nixij

∑ j = 1 n i 2 ( x i j − x i ‾ ) ( x i ‾ − x ‾ ) = 2 ( x i ‾ − x ‾ ) ∑ j = 1 n i ( x i j − x i ‾ ) = 2 ( x i ‾ − x ‾ ) ( ∑ j = 1 n i x i j − n i x i ‾ ) = 0 \begin{align} &\sum\limits_{j=1}^{n_i} 2(x_{ij} - \overline{x_i})(\overline{x_i} - \overline{x}) \nonumber \\ = &2(\overline{x_i} - \overline{x})\sum\limits_{j=1}^{n_i} (x_{ij} - \overline{x_i}) \nonumber \\ = &2(\overline{x_i} - \overline{x}) \left( \sum\limits_{j=1}^{n_i} x_{ij} - n_i \overline{x_i} \right) \nonumber \\ = &0 \nonumber \end{align} ===j=1ni2(xijxi)(xix)2(xix)j=1ni(xijxi)2(xix)(j=1nixijnixi)0

s 2 = 1 N ∑ i = 1 L [ ∑ j = 1 n i ( x i j − x i ‾ ) 2 + ∑ j = 1 n i ( x i ‾ − x ‾ ) 2 ] = 1 N ∑ i = 1 L [ n i s i 2 + n i ( x i ‾ − x ‾ ) 2 ] = ∑ i = 1 L [ n i N ⋅ s i 2 + n i N ⋅ ( x i ‾ − x ‾ ) 2 ] = ∑ i = 1 L ω i [ s i 2 + ( x i ‾ − x ‾ ) 2 ] \begin{align} s^2 &= \frac{1}{N} \sum\limits_{i=1}^{L} \left[ \sum\limits_{j=1}^{n_i} (x_{ij} - \overline{x_i})^2 + \sum\limits_{j=1}^{n_i} (\overline{x_i} - \overline{x})^2 \right] \nonumber\\ &= \frac{1}{N} \sum\limits_{i=1}^{L} \left[ n_is_i^2 + n_i (\overline{x_i} - \overline{x})^2 \right] \nonumber \\ &= \sum\limits_{i=1}^{L} \left[ \frac{n_i}{N} \cdot s_i^2 + \frac{n_i}{N} \cdot (\overline{x_i} - \overline{x})^2 \right] \nonumber \\ &= \sum\limits_{i = 1}^{L} \omega_i \left[ s^2_i + (\overline{x_i} - \overline{x})^2 \right] \nonumber \end{align} s2=N1i=1L[j=1ni(xijxi)2+j=1ni(xix)2]=N1i=1L[nisi2+ni(xix)2]=i=1L[Nnisi2+Nni(xix)2]=i=1Lωi[si2+(xix)2]

举例

引例2 为例:
x ‾ = 15 % × 443 + 23 % × 450 + 22 % × 470 + 16 % × 453 + 24 % × 466 = 457.67 s 2 = 15 % × [ 28 + ( 443 − 457.67 ) 2 ] + 23 % × [ 33 + ( 450 − 457.67 ) 2 ] + 22 % × [ 23 + ( 470 − 457.67 ) 2 ] + 16 % × [ 40 + ( 453 − 457.67 ) 2 ] + 24 % × [ 43 + ( 466 − 457.67 ) 2 ] = 132.971 \begin{align} \overline{x} =& 15\% \times 443 + 23\% \times 450 + 22\% \times 470 + 16\% \times 453 + 24\% \times 466 \nonumber \\ =& 457.67 \nonumber \\ s^2 = &15\% \times [28 + (443 - 457.67)^2] + \nonumber \\ &23\% \times [33 + (450 - 457.67)^2] + \nonumber \\ &22\% \times [23 + (470 - 457.67)^2] + \nonumber \\ &16\% \times [40 + (453 - 457.67)^2] + \nonumber \\ &24\% \times [43 + (466 - 457.67)^2] \nonumber \\ =& 132.971 \nonumber \end{align} x==s2==15%×443+23%×450+22%×470+16%×453+24%×466457.6715%×[28+(443457.67)2]+23%×[33+(450457.67)2]+22%×[23+(470457.67)2]+16%×[40+(453457.67)2]+24%×[43+(466457.67)2]132.971
因此,这五所学校成绩的总体均值为457.67,方差为132.971.

在R语言中,分层抽样是一种统计采样技术,它将总体分成若干个层次,每个层次内部有其特定的特性或属性。当你需要对每一层的数据进行独立估计,或者各层数据之间的差异较大时,分层抽样非常有效。 如果你想计算分层抽样后的均值方差,可以按照以下步骤操作: 1. **获取样本数据**:首先,你需要从每个层次中抽取代表性样本,这些数据通常保存在一个数据框(data frame)或其他适当的结构中。 2. **计算层内均值**:对于每层,使用`mean()`函数计算层内的平均值。例如,如果你有一个名为`df`的数据框,其中包含两列`layer`(表示层次)`value`(数值变量),你可以这样做: ```r mean_per_layer <- df %>% group_by(layer) %>% summarise(mean_value = mean(value)) ``` 3. **计算层内方差**:类似地,使用`var()`函数计算每个层次的方差: ```r var_per_layer <- df %>% group_by(layer) %>% summarise(variance = var(value)) ``` 4. **加权均值方差**:如果样本不是简单随机抽取,而是有分配权重(如比例权重),则需要用`weighted.mean()``weighted.var()`代替上述函数,并传入相应的权重列。 5. **总体均值方差**:如果已知各层的样本量,可以用层内均值乘以样本量再得到总体均值;同样,用层内方差加上层间差异(比如标准误差的平方)乘以样本量的平方,然后除以样本总数,来估计总体方差。 注意,在实际应用中,这些只是基本思路,具体的公式可能会因为实际情况有所不同。记得检查你的数据是否满足分层抽样的假设,以及是否需要对缺失值、异常值等进行处理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值