假设检验（正态分布总体方差）20211130

最新推荐文章于 2024-06-01 00:07:31 发布

明朝百晓生

最新推荐文章于 2024-06-01 00:07:31 发布

阅读量1.8k

点赞数

分类专栏：人工智能文章标签： MODEM 芯片 css3

4AM_明朝百晓生

本文链接：https://blog.csdn.net/chengxf2/article/details/121643898

版权

人工智能专栏收录该内容

102 篇文章 3 订阅

订阅专栏

前言：

在机器学习中，我们在新的样本上遇到测试的偏差跟原来差距很大。

一个研究方向就是比较数据集差异，如果确实是数据集差异过大导致的，可以

保留原有的模型不变，增加一个新的模型处理新的数据。然后多个模型集合起来处理

也就是集成学习的思想。

单个总体情况
两个总体情况
例子

一单个总体情况

.1.1 原假设H0,分3种情况，这里都是上 $\alpha$ 分位数

a $\sigma^2\leq \sigma_0^2$

b $\sigma^2\geq \sigma_0^2$

c $\sigma^2=\sigma_0^2$

1.2 统计量

$\chi^2 =\frac{(n-1)s^2}{\sigma^2}$

1.3 拒绝域

a $\chi^2\geq \chi_{\alpha}^2(n-1)$ :chi2.isf(q)

b $\chi^2\leq \chi^2_{1-\alpha}(n-1)$ : chi2.ppf(q),或者chi2.isf(1-q)

c $\begin{bmatrix} -\infty,\chi^2_{1-\alpha/2}(n-1) \end{bmatrix}$ and $[\chi^2_{\alpha/2}(n-1),\infty]$

二两个总体的情况

设 $X_1,X_2,...X_n$ 是来自总体 $N(u_1,\sigma_1^2)$ 的样本， $Y_1,Y_2,...Y_n_2$

是来自总体 $N(u_2,\sigma_2^2)$ 的样本，且两个样本独立。且样本方差 $S_1^2,S_2^2$ ,

且 $u_1,u_2,\sigma_1^2,\sigma_2^2$ 均为未知，现在需要检验假设(显著水平为 $\alpha$ ）

$H_0: \sigma_1^2 \leq \sigma_2^2,H_1:\sigma_1^2> \sigma_2^2$

根据样本方差是方差的无偏估计

当H0 为真时候， $E(S_1^2)=\sigma_1^2\leq \sigma_2^2=E(S_2^2)$

当H1 为真时候 $E(S_1^2)=\sigma_1^2>\sigma_2^2=E(S_2^2)$

常数K确定如下：

$P{I}=P_{\sigma_1^2\leq \sigma_2^2}\begin{Bmatrix} \frac{S_1^2}{S_2^2}\geq k \end{Bmatrix}\leq P_{\sigma_1^2 \leq \sigma_2^2}\begin{Bmatrix} \frac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2}\geq k \end{Bmatrix}$

$P_{\sigma_1^2\leq \sigma_2^2}\begin{Bmatrix} \frac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2}\geq k \end{Bmatrix} = P_{\sigma_1^2\leq \sigma_2^2}\begin{Bmatrix} \frac{s_1^2}{s_2^2}\geq \frac{\sigma_1^2}{\sigma_2^2} k \end{Bmatrix}$

所以要控制P{当H0为真拒绝H0} $\leq \alpha$ ,只需要

$P_{\sigma_1^2\leq \sigma_2^2}\begin{Bmatrix} \frac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2}\geq k \end{Bmatrix}=\alpha$

服从 $F=\frac{s_1^2}{s_2^2}\sim F_{\alpha}(n_1-1,n_2-2)$

称为F 分布

三例

3.1 某工厂生产某种型号的电池,其寿命（h）长期以来服从方差 $\sigma^2=5000$ 的正态分布，

现有一批电池，随机取26只，测出其寿命的样本方差为 $S^2=9200$ ,问根据这一数据是否能推断出电池寿命的波动比较以往发生显著的变化（ $\alpha=0.02$ ）

解：

'''
n 自由度
sigma 方差
S 样本方差
'''
def EstimateC():
    n = 26
    s = 9200
    sigma = 5000
    alpha = 0.02
    
    z = (n-1)*s/sigma
    print("\n 统计量: %5.3f"%z)
    
    low = chi2.ppf(alpha/2,n-1)
    up = chi2.isf(alpha/2,n-1)
    
    print("\n 拒绝域 >%5.3f or <%5.3f"%(up,low))
    
    if z>up or z<low:
        print("\n 拒绝原假设H0")
    else:
        print("\n 原假设成立")
if __name__ =="__main__":
    EstimateC()
=======输出======

 统计量: 46.000

 拒绝域 >44.314 or <11.524

 拒绝原假设H0

3.2 两个样本分别来自总体 $N(u_A,\sigma_A^2),N(u_B,\sigma_B^2)$ ,且样本独立，

试验 $H_0: \sigma_A^2=\sigma_B^2$ , $H_1:\sigma_A^2 \neq \sigma_B^2$ ,以说明我们的假设 $H_0: \sigma_A^2=\sigma_B^2$

,取显著水平 $\alpha=0.01$ 。 n1= 13, n2 =8, $S_A^2=0.024^2,S_B^2=0.031^2$

解

 def Est(self):
       sa = 0.024**2
       sb = 0.031**2
       n1 = 13
       n2 = 8
       alpha= 0.01
       
       z = (sa/sb)
       print("\n  统计量 %5.2f"%z)
       
       right = f.isf(alpha/2,n1-1,n2-1)
       left = f.ppf(alpha/2,n1-1,n2-1)
       
       print("\n 拒绝域 [-, 左边%5.2f] [右边%5.2f]"%(left,right))
       
       if z < left  or z> right:
           print("\n 拒绝原假设")
       else:
           print("\n ===原假设H0 成立========")

输出
 ===原假设H0 成立========