三、区间估计：使用Python进行两个正态总体参数的区间估计

最新推荐文章于 2023-02-20 17:28:11 发布

hflag168

最新推荐文章于 2023-02-20 17:28:11 发布

阅读量1.3k

点赞数 6

分类专栏：统计区间估计文章标签：概率论统计学数据分析

本文链接：https://blog.csdn.net/qq_35125180/article/details/107064760

版权

统计同时被 2 个专栏收录

15 篇文章 9 订阅

订阅专栏

区间估计

3 篇文章 1 订阅

订阅专栏

设样本 $X_1, ..., X_{n1})$ 和 $Y_1,...,Y_{n2})$ 分别来自总体 $N(\mu_1, \sigma1^2)$ 和 $N(\mu_2, \sigma_2^2)$ ，并且它们相互独立. 样本均值分别为 $\overline X, \overline Y$ ; 样本方差分别为 $S_1^2, S_2^2$ . 置信水平为 $1-\alpha$ .

1. $\mu_1-\mu_2$ 的置信区间

1.1. $\sigma_1^2 , \sigma_2^2$ 已知时

由 $\mu_1 - \mu_2$ 的估计是 $\overline X - \overline Y$ 的分布，得枢轴量：
$\frac{(\overline x - \overline y)-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\sim N(0,1)$
得其置信区间为：
$(\overline X - \overline Y) \pm Z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}$

1.2. $\sigma_1^2 = \sigma_2 ^2$ 且未知

以 $S_w^2=\frac{(n_1-1)S_1^2 +(n_2-1)S_2^2}{n_1+n_2-2}$ 代替 $\sigma^2$ 得到枢轴量：
$\frac{(\overline X - \overline Y)-(\mu_1 - \mu_2)}{S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim t(n_1+n_2 -2)$
得其置信区间为：
$(\overline X - \overline Y)\pm t_{\alpha/2}(n_1+n_2 -2)S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}$

1.3. $\sigma_1^2 \neq \sigma_2^2$ 且未知

以 $S_1^2$ 估计 $\sigma_1^2$ , 以 $S_2^2估计\sigma_2^2$
当样本量 $n_1$ 和 $n_2$ 都充分大时（一般要>30）,
$\frac{(\overline X - \overline Y)-(\mu_1 - \mu_2)}{\sqrt{\frac{S_1^2}{n_1}+\frac{S_1^2}{n_2}}}\sim N(0,1)$
得其近似置信区间：
$(\overline X - \overline Y)\pm Z_{\alpha/2}\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}$
当样本量很小的时
$\frac{(\overline X - \overline Y)-(\mu_1-\mu_2)}{\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}}\sim t(k)$
其中 $\approx min(n_1-1, n_2-1)$
则其近似置信区间为：
$(\overline X - \overline Y) \pm t_{\alpha/2}(k)\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}$

2. $\frac{\sigma_1^2}{\sigma_2^2}$ 的置信区间( $\mu_1, \mu_2$ 未知)

由 $\frac{\sigma_1^2}{\sigma_2^2}$ 的估计 $\frac{S_1^2}{S_2^2}$ 得到枢轴量：
$\frac{S_1^1/S_2^2}{\sigma_1^2/\sigma_2^2}\sim F(n_1-1, n_2-1)$
F分布概率密度
得其置信区间为：
$\frac{S_1^2}{S_2^2}\frac{1}{F_{\alpha/2}(n_1-1, n_2-1)}, \frac{S_1^2}{S_2^2}\frac{1}{F_{1-\alpha/2}(n_1-1, n_2-1)}$

3. Python代码对区间估计的实现

3.1. 均值差的估计

def confidence_interval_udif(data1, data2, sigma1=-1, sigma2=-2, alpha=0.05):
    xb1=np.mean(data1)
    xb2 = np.mean(data2)
    n1 = len(data1)
    n2 = len(data2)
    
    if sigma1>0 and sigma2 >0: # 方差已知
        tmp = np.sqrt(sigma1**2/n1 + sigma2**2/n2)
        Z = stats.norm(loc=0., scale=1.)
        return ( (xb1-xb2) + tmp*Z.ppf(alpha/2), (xb1-xb2) - tmp*Z.ppf(alpha/2))
    else: # 方差未知
        if sigma1 == sigma2: #未知且相等
            sw = ((n1-1)*np.var(data1, ddof=1) + (n2-1)*np.var(data2, ddof=1))/(n1+n2-2)
            tmp = np.sqrt(sw) * np.sqrt(1/n1 + 1/n2)
            T = stats.t(df=n1+n2-2)
            return ((xb1-xb2)+tmp*T.ppf(alpha/2), (xb1-xb2)-tmp*T.ppf(alpha/2))
        else: # 未知且不等
            tmp = np.sqrt(np.var(data1, ddof=1)/n1 + np.var(data2, ddof=1)/n2)
            k = np.min([n1-1, n2-1])
            T = stats.t(df=k)
            return ((xb1-xb2)+tmp*T.ppf(alpha/2), (xb1-xb2)-tmp*T.ppf(alpha/2))

3.2. 方差比的估计

def confidence_interval_varRatio(data1, data2,alpha=0.05):
  n1 = len(data1)
  n2 = len(data2)
  tmp = np.var(data1, ddof=1)/np.var(data2, ddof=1)
  F = stats.f(dfn=n1-1, dfd=n2-1)
  
  return  tmp/F.ppf(1-alpha/2),tmp/F.ppf(alpha/2)

4 实例验证

例：两台机床生产同一型号滚珠，从甲机床生产的滚珠中取8个，从乙机床生产的滚珠中取9个，测得这些滚珠的直径(单位：毫米)如下：
甲机床：15.0, 14.8, 15.2, 15.4, 14.9, 15.1, 15.2, 14.8
乙机床：15.2, 15.0, 14.8, 15.1, 14.6, 14.8, 15.1, 14.5, 15.0
设两机床生产的滚珠直径分别为X, Y, 且
$X\sim N(\mu_1, \sigma_1^2), Y\sim N(\mu_2, \sigma_2^2)$
求置信水平为0.9的双侧置信区间：
(1) $\sigma_1=0.8, \sigma_2=0.24,$ 求 $\mu_1 - \mu_2$ 的置信区间；
(2) 若 $\sigma_1=\sigma_2$ 且未知，求 $\mu_1 - \mu_2$ 的置信区间；
(3) 若 $\sigma_1 \neq \sigma_2$ , 求 $\mu_1 - \mu_2$ 的置信区间；
(4) 若 $\mu_1, \mu_2$ 未知，求 $\frac{\sigma_1^2}{\sigma_2^2}$ 的置信区间.
解：(1)

data1 = np.array([15.0, 14.8, 15.2, 15.4, 14.9, 15.1, 15.2, 14.8])
data2 = np.array([15.2, 15.0, 14.8, 15.1, 14.6, 14.8, 15.1, 14.5, 15.0])
confidence_interval_udif(data1, data2, 0.18, 0.24, 0.1)
# 结果：
(-0.018145559249408555, 0.31814555924941279)

(2)

data1 = np.array([15.0, 14.8, 15.2, 15.4, 14.9, 15.1, 15.2, 14.8])
data2 = np.array([15.2, 15.0, 14.8, 15.1, 14.6, 14.8, 15.1, 14.5, 15.0])
confidence_interval_udif(data1, data2, -1, -1, 0.1)
# 结果：
(-0.044246980022314808, 0.34424698002231907)

(3)

data1 = np.array([15.0, 14.8, 15.2, 15.4, 14.9, 15.1, 15.2, 14.8])
data2 = np.array([15.2, 15.0, 14.8, 15.1, 14.6, 14.8, 15.1, 14.5, 15.0])
confidence_interval_udif(data1, data2, -1, -2, 0.1)
# 结果:
(-0.058430983560407906, 0.35843098356041214)

(4)

data1 = np.array([15.0, 14.8, 15.2, 15.4, 14.9, 15.1, 15.2, 14.8])
data2 = np.array([15.2, 15.0, 14.8, 15.1, 14.6, 14.8, 15.1, 14.5, 15.0]) 
confidence_interval_varRatio(data1, data2,alpha=0.1)
# 结果：
(0.22712162982480297, 2.9620673328677332)

5. 参考文件

《概率论与数理统计》浙大
numpy and scipy documents

6. 欢迎交流学习

email: hflag@163.com
qq: 532843488
本人一直从事《概率论与数理统计》的教学，欢迎遇到问题的童靴们联系我。

hflag168

关注

6
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
三、区间估计：使用Python进行两个正态总体参数的区间估计

设样本(X1,...,Xn1)(X_1, ..., X_{n1})(X1,...,Xn1)和(Y1,...,Yn2)(Y_1,...,Y_{n2})(Y1,...,Yn2)分别来自总体N(μ1,σ12)N(\mu_1, \sigma1^2)N(μ1,σ12)和N(μ2,σ22)N(\mu_2, \sigma_2^2)N(μ2,σ22)，并且它们相互独立. 样本均值分别为X‾,Y‾\overline X, \overline YX,Y; 样本方差分别为S12,S22S_1^2, S_2^2S12
复制链接

扫一扫