机器学习|双正态总体的区间估计(均值、方差的置信区间求法)+ 最优置信区间取法| 15mins 入门 |概统学习笔记(二十九)

双正态总体 N ( μ i , σ i 2 ) N(\mu_i, \sigma_i^2) N(μi,σi2)的区间估计

  1. 两个总体均值差 μ 1 − μ 2 \mu_1-\mu_2 μ1μ2的置信区间

    (1) σ 1 2 、 σ 2 2 \sigma_1^2、\sigma_2^2 σ12σ22均为已知

    因为 X ‾ 、 Y ‾ \overline X、\overline Y XY分别为 μ 1 、 μ 2 \mu_1、\mu_2 μ1μ2的无偏估计,故 X ‾ − Y ‾ \overline X- \overline Y XY μ 1 − μ 2 \mu_1 - \mu_2 μ1μ2的无偏估计

    X ‾ 、 Y ‾ \overline X、\overline Y XY的独立性及 X ‾ ∼ N ( μ 1 , σ 1 2 n 1 ) 、 Y ‾ ∼ N ( μ 2 , σ 2 2 n 2 ) \overline X \sim N(\mu_1,\frac{\sigma_1^2}{n_1})、\overline Y \sim N(\mu_2,\frac{\sigma_2^2}{n_2}) XN(μ1,n1σ12)YN(μ2,n2σ22)
    X ‾ − Y ‾ ∼ N ( μ 1 − μ 2 , σ 1 2 n 1 + σ 2 2 n 2 ) \overline X-\overline Y\sim N(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}) XYN(μ1μ2,n1σ12+n2σ22)
    于是
    ( X ‾ − Y ‾ ) − ( μ 1 − μ 2 ) σ 1 2 n 1 + σ 2 2 n 2 ∼ N ( 0 , 1 ) \frac{(\overline X-\overline Y)-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\sim N(0,1) n1σ12+n2σ22 (XY)(μ1μ2)N(0,1)
    μ 1 − μ 2 \mu_1-\mu_2 μ1μ2在置信度为 1 − α 1-\alpha 1α时的置信区间为
    [ ( X ‾ − Y ‾ ) − μ a / 2 σ 1 2 n 1 + σ 2 2 n 2 , ( X ‾ − Y ‾ ) + μ a / 2 σ 1 2 n 1 + σ 2 2 n 2 ] [(\overline X-\overline Y)-\mu_{a/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma^2_2}{n_2}},(\overline X-\overline Y)+\mu_{a/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma^2_2}{n_2}}] [(XY)μa/2n1σ12+n2σ22 ,(XY)+μa/2n1σ12+n2σ22 ]

    实际应用

    设超大牵伸纺机所纺的纱的断裂强度服从 N ( μ 1 , 2.1 8 2 ) N(\mu_1,2.18^2) N(μ1,2.182),普通纺机所纺的纱的断裂强度服从 N ( μ 2 , 1.7 6 2 ) N(\mu_2,1.76^2) N(μ2,1.762)。现对前者抽取容量为200 的样本 X 1 , X 2 , . . . , X 200 X_1,X_2,...,X_{200} X1,X2,...,X200,算得 X ‾ = 5.32 \overline X=5.32 X=5.32;对后者抽取容量为100的样本 Y 1 , Y 2 , . . . , Y 100 Y_1,Y_2,...,Y_{100} Y1,Y2,...,Y100,算得 Y ‾ = 5.76 \overline Y=5.76 Y=5.76。求置信度为0.95时,$\mu_1-\mu_2 $的区间估计。

    解:这是方差已知时求双正态样本的均值差的区间估计。

    依题意得: σ 1 2 = 2.1 8 2 ; σ 2 2 = 1.7 6 2 ; n 1 = 200 ; n 2 = 100 \sigma_1^2=2.18^2;\sigma_2^2=1.76^2;n_1=200;n_2=100 σ12=2.182;σ22=1.762;n1=200;n2=100
    σ 1 2 n 1 + σ 2 2 n 2 = 0.234 ; X ‾ − Y ‾ = − 0.44 \sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}=0.234;\overline X-\overline Y=-0.44 n1σ12+n2σ22 =0.234;XY=0.44
    查正态分布表得: μ a / 2 = μ 0.025 = 1.96 \mu_{a/2}=\mu_{0.025}=1.96 μa/2=μ0.025=1.96
    ( X ‾ − Y ‾ ) − μ a / 2 σ 1 2 n 1 + σ 2 2 n 2 = − 0.899 ( X ‾ − Y ‾ ) + μ a / 2 σ 1 2 n 1 + σ 2 2 n 2 = 0.019 (\overline X-\overline Y)-\mu_{a/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma^2_2}{n_2}}=-0.899 \\ (\overline X-\overline Y)+\mu_{a/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma^2_2}{n_2}}=0.019 (XY)μa/2n1σ12+n2σ22 =0.899(XY)+μa/2n1σ12+n2σ22 =0.019
    故所求的 μ 1 − μ 2 \mu_1-\mu_2 μ1μ2的置信区间为 [ − 0.899 , 0.019 ] [-0.899,0.019] [0.899,0.019]

    (2) σ 1 2 = σ 2 2 = σ 2 \sigma_1^2=\sigma_2^2=\sigma^2 σ12=σ22=σ2,但 σ 2 \sigma^2 σ2为未知

    由前面提到的定理,可知
    T = ( X ‾ − Y ‾ ) − ( μ 1 − μ 2 ) S w 1 n 1 + 1 n 2 ∼ t ( n 1 + n 2 − 2 ) T=\frac{(\overline X-\overline Y)-(\mu_1-\mu_2)}{S_w \sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t(n_1+n_2-2) T=Swn11+n21 (XY)(μ1μ2)t(n1+n22)
    μ 1 − μ 2 \mu_1-\mu_2 μ1μ2在置信度为 1 − a 1-a 1a时的置信区间为
    [ ( X ‾ − Y ‾ ) − t a / 2 ( n 1 + n 2 − 2 ) S w 1 n 1 + 1 n 2 , ( X ‾ − Y ‾ ) + t a / 2 ( n 1 + n 2 − 2 ) S w 1 n 1 + 1 n 2 ] [(\overline X-\overline Y)-t_{a/2}(n_1+n_2-2)S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}},(\overline X-\overline Y)+t_{a/2}(n_1+n_2-2)S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}] [(XY)ta/2(n1+n22)Swn11+n21 ,(XY)+ta/2(n1+n22)Swn11+n21 ]
    其中:
    S w = ( n 1 − 1 ) S 1 2 + ( n 2 − 1 ) S 2 2 n 1 + n 2 − 2 S_w=\sqrt{\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}} Sw=n1+n22(n11)S12+(n21)S22

  2. 两个总体方差比 σ 1 2 / σ 2 2 \sigma_1^2/\sigma_2^2 σ12/σ22的置信区间

    根据实际情况需要,只需要介绍 μ 1 、 μ 2 \mu_1、\mu_2 μ1μ2未知下的 σ 1 2 σ 2 2 \frac{\sigma_1^2}{\sigma_2^2} σ22σ12的置信区间,由于分布 F ( n 1 − 1 , n 2 − 1 ) F(n_1-1,n_2-1) F(n11,n21)不依赖任何未知参数,由此得
    P { F 1 − a / 2 ( n 1 − 1 , n 2 − 1 ) < S 1 2 / S 2 2 σ 1 2 / σ 2 2 < F a / 2 ( n 1 − 1 , n 2 − 1 ) } = 1 − a P { S 1 2 S 2 2 ⋅ 1 F a / 2 ( n 1 − 1 , n 2 − 1 ) < σ 1 2 σ 2 2 < S 1 2 S 2 2 ⋅ 1 F 1 − a / 2 ( n 1 − 1 , n 2 − 1 ) } = 1 − a P\{F_{1-a/2}(n_1-1,n_2-1)<\frac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2}<F_{a/2}(n_1-1,n_2-1)\}=1-a \\ P\{\frac{S_1^2}{S_2^2}·\frac{1}{F_{a/2}(n_1-1,n_2-1)}<\frac{\sigma^2_1}{\sigma_2^2}<\frac{S_1^2}{S_2^2}·\frac{1}{F_{1-a/2}(n_1-1,n_2-1)}\} = 1-a P{F1a/2(n11,n21)<σ12/σ22S12/S22<Fa/2(n11,n21)}=1aP{S22S12Fa/2(n11,n21)1<σ22σ12<S22S12F1a/2(n11,n21)1}=1a
    进而得出 σ 1 2 σ 2 2 \frac{\sigma_1^2}{\sigma_2^2} σ22σ12的置信区间为
    [ S 1 2 S 2 2 ⋅ 1 F a / 2 ( n 1 − 1 , n 2 − 1 ) , S 1 2 S 2 2 ⋅ 1 F 1 − a / 2 ( n 1 − 1 , n 2 − 1 ) ] [\frac{S_1^2}{S_2^2}·\frac{1}{F_{a/2}(n_1-1,n_2-1)},\frac{S_1^2}{S_2^2}·\frac{1}{F_{1-a/2}(n_1-1,n_2-1)}] [S22S12Fa/2(n11,n21)1,S22S12F1a/2(n11,n21)1]

  • 若样本容量很大,即是总体分布未知,应用中心极限定理,可得总体的近似分布,于是也可以近似求得参数的区间估计

  • 给定样本,给定置信水平,置信区间也不是唯一的。对同一个参数,我们可以构造许多置信区间

    e.g 设 X 1 , . . . , X n X_1,...,X_n X1,...,Xn是取自 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)的样本, σ \sigma σ已知,求参数 μ \mu μ的置信水平为 1 − a 1-a 1a的置信区间。

    取枢轴量
    U = X ‾ − μ σ / n ∼ N ( 0 , 1 ) U=\frac{\overline X-\mu}{\sigma/\sqrt n}\sim N(0,1) U=σ/n XμN(0,1)
    由正态分布表,对任意 a 、 b a、b ab,我们可以求得 P ( a < U < b ) P(a<U<b) P(a<U<b).

    如,由 P ( − 1.96 ≤ U ≤ 1.96 ) = 0.95 P(-1.96\leq U\leq 1.96)=0.95 P(1.96U1.96)=0.95

在这里插入图片描述

我们得到均值 μ \mu μ的置信水平为 1 − a 1-a 1a的置信区间为
[ X ‾ − 1.96 σ / n , X ‾ + 1.96 σ / n ] [\overline X-1.96\sigma/\sqrt n,\overline X+1.96\sigma/\sqrt n] [X1.96σ/n ,X+1.96σ/n ]
同样的,由 P ( − 1.75 ≤ U ≤ 2.33 ) = 0.95 P(-1.75\leq U\leq 2.33)=0.95 P(1.75U2.33)=0.95

在这里插入图片描述

我们得到均值 μ \mu μ的置信水平为 1 − a 1-a 1a的置信区间为
[ X ‾ − 1.75 σ / n , X ‾ + 2.33 σ / n ] [\overline X-1.75\sigma/\sqrt n,\overline X+2.33\sigma/\sqrt n] [X1.75σ/n ,X+2.33σ/n ]
这个区间比前面一个要长一些。

类似的,我们可以得到若干个不同的置信区间。

任意两个数 a a a b b b,只要它们的纵坐标包含 f ( u ) f(u) f(u) 95 95% 95的面积,就确定一个 95 95% 95的置信区间。

在这里插入图片描述

但是,我们总是希望置信区间尽可能短。

在概率密度为单峰且对称的情形下,当 a = − b a=-b a=b时,求得的置信区间的长度为最短。

即使是在概率密度不对称的情形下,如 χ 2 \chi^2 χ2分布, F F F分布,习惯上仍取对称的百分位点来计算未知参数的置信区间。

在这里插入图片描述

我们可以得到未知参数的任何置信水平小于1的置信区间,并且置信水平越高,相应的置信区间的平均长度越长。

也就是说,要想得到的区间估计可靠度高,区间长度就长,估计的精度就差。这是一对矛盾。

实用中应在保证足够可靠的前提下,尽量使得区间的长度短一些。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值