机器学习|双正态总体的区间估计（均值、方差的置信区间求法）+ 最优置信区间取法| 15mins 入门 |概统学习笔记（二十九）

最新推荐文章于 2024-06-13 13:36:20 发布

Sany 何灿

最新推荐文章于 2024-06-13 13:36:20 发布

阅读量3.3k

点赞数 3

分类专栏：概统文章标签：机器学习概率论

本文链接：https://blog.csdn.net/SanyHo/article/details/105282779

版权

概统专栏收录该内容

32 篇文章 9 订阅

订阅专栏

双正态总体 $N(\mu_i, \sigma_i^2)$ 的区间估计

两个总体均值差 $\mu_1-\mu_2$ 的置信区间

（1） $\sigma_1^2、\sigma_2^2$ 均为已知

因为 $\overline X、\overline Y$ 分别为 $\mu_1、\mu_2$ 的无偏估计，故 $\overline X- \overline Y$ 是 $\mu_1 - \mu_2$ 的无偏估计

由 $\overline X、\overline Y$ 的独立性及 $\overline X \sim N(\mu_1,\frac{\sigma_1^2}{n_1})、\overline Y \sim N(\mu_2,\frac{\sigma_2^2}{n_2})$ 得
$\overline X-\overline Y\sim N(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2})$
于是
$\frac{(\overline X-\overline Y)-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\sim N(0,1)$
故 $\mu_1-\mu_2$ 在置信度为 $1-\alpha$ 时的置信区间为
$[(\overline X-\overline Y)-\mu_{a/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma^2_2}{n_2}},(\overline X-\overline Y)+\mu_{a/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma^2_2}{n_2}}]$

实际应用

设超大牵伸纺机所纺的纱的断裂强度服从 $N(\mu_1,2.18^2)$ ，普通纺机所纺的纱的断裂强度服从 $N(\mu_2,1.76^2)$ 。现对前者抽取容量为200 的样本 $X_1,X_2,...,X_{200}$ ，算得 $\overline X=5.32$ ;对后者抽取容量为100的样本 $Y_1,Y_2,...,Y_{100}$ ，算得 $\overline Y=5.76$ 。求置信度为0.95时，$\mu_1-\mu_2 $的区间估计。

解：这是方差已知时求双正态样本的均值差的区间估计。

依题意得： $\sigma_1^2=2.18^2;\sigma_2^2=1.76^2;n_1=200;n_2=100$
$\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}=0.234;\overline X-\overline Y=-0.44$
查正态分布表得： $\mu_{a/2}=\mu_{0.025}=1.96$
$(\overline X-\overline Y)-\mu_{a/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma^2_2}{n_2}}=-0.899 \\ (\overline X-\overline Y)+\mu_{a/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma^2_2}{n_2}}=0.019$
故所求的 $\mu_1-\mu_2$ 的置信区间为 $[- 0.899, 0.019]$

（2） $\sigma_1^2=\sigma_2^2=\sigma^2$ ,但 $\sigma^2$ 为未知

由前面提到的定理，可知
$T=\frac{(\overline X-\overline Y)-(\mu_1-\mu_2)}{S_w \sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t(n_1+n_2-2)$
于 $\mu_1-\mu_2$ 在置信度为 $1 - a$ 时的置信区间为
$[(\overline X-\overline Y)-t_{a/2}(n_1+n_2-2)S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}},(\overline X-\overline Y)+t_{a/2}(n_1+n_2-2)S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}]$
其中：
$S_w=\sqrt{\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}}$
两个总体方差比 $\sigma_1^2/\sigma_2^2$ 的置信区间

根据实际情况需要，只需要介绍 $\mu_1、\mu_2$ 未知下的 $\frac{\sigma_1^2}{\sigma_2^2}$ 的置信区间，由于分布 $F(n_1-1,n_2-1)$ 不依赖任何未知参数，由此得
$P\{F_{1-a/2}(n_1-1,n_2-1)<\frac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2}<F_{a/2}(n_1-1,n_2-1)\}=1-a \\ P\{\frac{S_1^2}{S_2^2}·\frac{1}{F_{a/2}(n_1-1,n_2-1)}<\frac{\sigma^2_1}{\sigma_2^2}<\frac{S_1^2}{S_2^2}·\frac{1}{F_{1-a/2}(n_1-1,n_2-1)}\} = 1-a$
进而得出 $\frac{\sigma_1^2}{\sigma_2^2}$ 的置信区间为
$[\frac{S_1^2}{S_2^2}·\frac{1}{F_{a/2}(n_1-1,n_2-1)},\frac{S_1^2}{S_2^2}·\frac{1}{F_{1-a/2}(n_1-1,n_2-1)}]$

若样本容量很大，即是总体分布未知，应用中心极限定理，可得总体的近似分布，于是也可以近似求得参数的区间估计
给定样本，给定置信水平，置信区间也不是唯一的。对同一个参数，我们可以构造许多置信区间

e.g 设 $X_1,...,X_n$ 是取自 $N(\mu,\sigma^2)$ 的样本， $\sigma$ 已知，求参数 $\mu$ 的置信水平为 $1 - a$ 的置信区间。

取枢轴量
$U=\frac{\overline X-\mu}{\sigma/\sqrt n}\sim N(0,1)$
由正态分布表，对任意 $a 、 b$ ，我们可以求得 $P (a < U < b)$ .

如，由 $P(-1.96\leq U\leq 1.96)=0.95$