§8.2 多重比较
8.2.1 水平均值差的置信区间
如果方差分析的结果是因子 A A A 显著, 则等于说有充分理由认为因子 A A A
各水平的效应不全相同,但这并不是说它们中一定没有相同的. 就指定的一对水平
A i A_{i} Ai 与 A j A_{j} Aj, 我们可通过求 μ i − μ j \mu_{i}-\mu_{j} μi−μj
的区间估计来进行比较,方法如下:由 (8.1.27) 式可以推出
y ˉ i . − y ˉ j , ∼ N ( μ i − μ j , ( 1 m i + 1 m j ) σ 2 ) , \bar{y}_{i .}-\bar{y}_{j,} \sim N\left(\mu_{i}-\mu_{j},\left(\frac{1}{m_{i}}+\frac{1}{m_{j}}\right) \sigma^{2}\right), yˉi.−yˉj,∼N(μi−μj,(mi1+mj1)σ2),
而定理 8.1 .2 指出 S e / σ 2 ∼ χ 2 ( f e ) S_{e} / \sigma^{2} \sim \chi^{2}\left(f_{e}\right) Se/σ2∼χ2(fe),
且两者独立, 故
( y ˉ i ⋅ − y ˉ j . ) − ( μ i − μ j ) ( 1 m i + 1 m j ) S e f e ∼ t ( f e ) . \frac{\left(\bar{y}_{i} \cdot-\bar{y}_{j .}\right)-\left(\mu_{i}-\mu_{j}\right)}{\sqrt{\left(\frac{1}{m_{i}}+\frac{1}{m_{j}}\right) \frac{S_{e}}{f_{e}}}} \sim t\left(f_{e}\right) . (mi1+mj1)feSe(yˉi⋅−yˉj.)−(μi−μj)∼t(fe).
由此给出 μ i − μ j \mu_{i}-\mu_{j} μi−μj 的置信水平为 1 − α 1-\alpha 1−α 的置信区间为
[ y ˉ i + − y ˉ j ⋅ ± ( 1 m i + 1 m j ) σ ^ ⋅ t 1 − a 2 ( f e ) ] , \left[\bar{y}_{i+}-\bar{y}_{j \cdot} \pm \sqrt{\left(\frac{1}{m_{i}}+\frac{1}{m_{j}}\right)} \hat{\sigma} \cdot t_{1-\frac{a}{2}}\left(f_{e}\right)\right], [yˉi+−yˉj⋅±(mi1+mj1)σ^⋅t1−2a(fe)],
其中 σ ^ 2 = S e / f \hat{\sigma}^{2}=S_{e} / f σ^2=Se/f, 是 σ 2 \sigma^{2} σ2 的无偏估计.
根据置信区间与双侧假设检验间的对应关系 ( §7.2.2) 知: (8.2.1)
式给出的置信区间就是两正态均值差的检验问题:
H 0 : μ i − μ j = 0 vs H 1 : μ i − μ j ≠ 0 H_{0}: \mu_{i}-\mu_{j}=0 \quad \text { vs } H_{1}: \mu_{i}-\mu_{j} \neq 0 H0:μi−μj=0 vs H1:μi−μj=0
的接受域 W ˉ \bar{W} Wˉ. 若该置信区间含有 0 ,则可认为 μ i \mu_{i} μi 与 μ j \mu_{j} μj
间无显著差异; 若该区间不含有 0 ,则认为 μ i \mu_{i} μi 与 μ j \mu_{j} μj
间有显著差异.具体见下面例子.
例 8.2.1 在例 8.1.2 中, 我们已知饲料因子是显著的, 此处
m 1 = m 2 = m 3 = 8 , f e = 21 m_{1}=m_{2}=m_{3}=8, f_{e}=21 m1=m2=m3=8,fe=21,
σ ^ = 1343.61 = 36.66 \hat{\sigma}=\sqrt{1343.61}=36.66 σ^=1343.61=36.66, 若取 α = 0.05 \alpha=0.05 α=0.05, 则
t 1 − α / 2 ( f e ) = t 0.975 ( 21 ) = 2.0796 , 1 8 + 1 8 t_{1-\alpha / 2}\left(f_{e}\right)=t_{0.975}(21)=2.0796, \sqrt{\frac{1}{8}+\frac{1}{8}} t1−α/2(fe)=t0.975(21)=2.0796,81+81.
t 0.975 ( 21 ) σ ^ = 38.12 t_{0.975}(21) \hat{\sigma}=38.12 t0.975(21)σ^=38.12,于是可算出 3 对均值差的置信区间为
μ 1 − μ 2 : [ − 48.88 ± 38.12 ] = [ − 87 , − 10.76 ] , μ 1 − μ 3 : [ − 20 ± 38.12 ] = [ − 58.12 , 18.12 ] , μ 2 − μ 3 : [ 28.88 ± 38.12 ] = [ − 9.24 , 67 ] . \begin{array}{ll} \mu_{1}-\mu_{2}: & {[-48.88 \pm 38.12]=[-87,-10.76],} \\ \mu_{1}-\mu_{3}: & {[-20 \pm 38.12]=[-58.12,18.12],} \\ \mu_{2}-\mu_{3}: & {[28.88 \pm 38.12]=[-9.24,67] .} \end{array} μ1−μ2:μ1−μ3:μ2−μ3:[−48.88±38.12]=[−87,−10.76],[−20±38.12]=[−58.12,18.12],[28.88±38.12]=[−9.24,67].
这三个置信区间中只有 μ 1 − μ 2 \mu_{1}-\mu_{2} μ1−μ2 的置信区间不含有 0 , 故 μ 1 \mu_{1} μ1
与 μ 2 \mu_{2} μ2 间有显著差别, 其他 μ 1 \mu_{1} μ1与 μ 3 \mu_{3} μ3 或 μ 2 \mu_{2} μ2 与
μ 3 \mu_{3} μ3 间均无显著差别.
我们看到, (8.2.1) 式给出的置信区间与第六章中的两样本的 t t t
区间基本一致,区别在于这里 σ 2 \sigma^{2} σ2 的估计使用了全部样本而不仅仅是
A i , A j A_{i}, A_{j} Ai,Aj 两个水平下的观测值.
8.2.2 多重比较问题
这里遇到一个新的问题, 对每一组 ( i , j ) , ( 8.2.1 ) (i, j),(8.2 .1) (i,j),(8.2.1)
式给出的区间的置信水平都是 1- α \alpha α, 但对多个这样的区间,
要求其同时成立, 其联合置信水平就不再是 1 − α 1-\alpha 1−α 了. 譬如, 设
E 1 , E 2 , ⋯ , E k E_{1}, E_{2}, \cdots, E_{k} E