统计学基础——两个样本均值（频率）之差的分布

最新推荐文章于 2024-02-08 00:00:00 发布

xia ge tou lia

最新推荐文章于 2024-02-08 00:00:00 发布

阅读量1.2w

点赞数 3

分类专栏：统计学假设检验参数估计文章标签：样本均值之差样本频率之差

本文链接：https://blog.csdn.net/huangguohui_123/article/details/103697686

版权

统计学同时被 3 个专栏收录

30 篇文章

订阅专栏

假设检验

18 篇文章

订阅专栏

参数估计

3 篇文章

订阅专栏

一、样本均值之差的定义

设 $\overline{X}_{1}$ 是独立的抽自总体 $X_{1}\sim N(\mu _{1},\sigma _{1}^{2})$ 的一个容量为 $n_{1}$ 的样本的均值。 $\overline{X}_{2}$ 是独立的抽自总体 $X_{2}\sim N(\mu _{2},\sigma _{2}^{2})$ 的一个容量为 $n_{2}$ 的样本的均值。

则具备以下性质：

$E(\overline{X}_{1}-\overline{X}_{2})=E(\overline{X}_{1})-E(\overline{X}_{2})=\mu _{1}-\mu _{2}$ ， $E(\overline{X}_{1})$ 表示抽取多次获取样本均值 $\overline{X}_{1}$ 的数学期望，根据中心极限定理，则 $E(\overline{X}_{1})=\mu _{1}$ 。
$D(\overline{X}_{1}\pm\overline{X}_{2})=D(\overline{X}_{1})+D(\overline{X}_{2})=\frac{\sigma _{1}^{2}}{n_{1}}+\frac{\sigma _{2}^{2}}{n_{2}}$
$S(\overline{X}_{1}\pm\overline{X}_{2})=\sqrt{D(\overline{X}_{1}\pm\overline{X}_{2})}=\sqrt{\frac{\sigma _{1}^{2}}{n_{1}}+\frac{\sigma _{2}^{2}}{n_{2}}}$

当 $n_{1}$ 和 $n_{2}$ 足够大的时候，一般要分别大于50，则 $\overline{X}_{1}-\overline{X}_{2}$ 的抽样分布不管两样本的总体分布如何（正态或者偏态）均可看似正态分布来处理。其均值和方差求值如上面式子所示。

如果两总体为正态分布，则 $\overline{X}_{1}-\overline{X}_{2}$ 也为正态分布，其均值和方差求值如上面式子所示。

【补充】

定理：设 $X$ ， $Y$ 为两个随机变量，其均值 $E(X)$ ， $E(Y)$ ，方差 $D(X)$ ， $D(Y)$ 均存在，求 $D(X+Y)$ 或 $D(X-Y)$ 。

若不相关（ $X$ ， $Y$ 独立）的话就等于 $D(X\pm Y)=D(X)+D(Y)$
若相关（ $X$ ， $Y$ 不独立）的话，就是 $D(X\pm Y)=D(X)+D(Y)\pm 2Cov(X,Y)$

证明：设 $X=(x_{1},x_{2},...,x_{n})$ ， $Y=(y_{1},y_{2},...,y_{n})$ ，则 $D(X-Y)=D(X)+D(Y)$ 。 $\begin{align} D(X-Y) &= \frac{[(x_{1}-y_{1})-E(X-Y)]^{2}+[(x_{2}-y_{2})-E(X-Y)]^{2}+\cdot \cdot \cdot +[(x_{n}-y_{n})-E(X-Y)]^{2}}{n} \\ &=\frac{[(x_{1}-y_{1})-(E(X)-E(Y))]^{2}+[(x_{2}-y_{2})-(E(X)-E(Y))]^{2}+\cdot \cdot \cdot +[(x_{n}-y_{n})-(E(X)-E(Y))]^{2}}{n} \\ &=\frac{[(x_{1}-E(X))-(y_{1}-E(Y))]^{2}+[(x_{2}-E(X))-(y_{2}-E(Y))]^{2}+\cdot \cdot \cdot +[(x_{n}-E(X))-(y_{n}-E(Y))]^{2}}{n} \\ &=\frac{[(x_{1}-E(X))^{2}+(x_{2}-E(X))^{2}+\cdot \cdot \cdot +(x_{n}-E(X))^{2}]+[(y_{1}-E(Y))^{2}+(y_{2}-E(Y))^{2}+\cdot \cdot \cdot +(y_{n}-E(Y))^{2}]}{n} \\ & -\frac{2[(x_{1}-E(X))(y_{1}-E(X))+(x_{2}-E(X))(y_{2}-E(X))+\cdot \cdot \cdot +(x_{n}-E(X))(y_{n}-E(X))]}{n} \\ &=D(X)+D(Y)-2cov(X,Y) \end{align}$

二、样本频率之差的定义

设分别从具有参数为 $\pi _{1}$ 和参数为 $\pi _{2}$ 的二项总体中抽取包含 $n_{1}$ 个观测值和 $n_{2}$ 个观测值的独立样本，则两个样本比例差的抽样分布为：

$\overline{P}_{1}-\overline{P}_{2}=\frac{X_{1}}{n_{1}}-\frac{X_{2}}{n_{2}}$

具备以下性质：

$E(\overline{P}_{1}-\overline{P}_{2})=E(\overline{P}_{1})-E(\overline{P}_{2})=\pi _{1}-\pi _{2}$
$D(\overline{P}_{1}\pm\overline{P}_{2})=D(\overline{P}_{1})+D(\overline{P}_{2})=\frac{\pi_{1} (1-\pi_{1})}{n_{1}}+\frac{\pi_{2} (1-\pi_{2})}{n_{2}}$

当 $\large \pi$ 或 $\large 1-\pi$ 不太小，而 $\large n$ 足够大，通常 $\large n\pi$ 和 $\large n(1-\pi )$ 均大于或等于5， $\overline{P}_{1}-\overline{P}_{2}$ 的抽样分布近似为正态分布，其均值和方差的公式如上。