方差分析是根据试验数据来推断一个或多个因素在其状态变化时,是否对试验指标产生显著影响的一种数理统计方法。方差分析按影响试验指标的因素的个数可分为单因素方差分析、双因素方差分析以及多因素方差分析。
在数理统计中,把试验的结果(如产品的性能、产量等)称为试验指标,影响试验指标的条件称为因素或因子,因素所处的不同状态称为水平。通常用大写字母 A , B , . . . A,B,... A,B,... 等表示不同的因素,用带下标的 A 1 , A 2 , . . . A_1,A_2,... A1,A2,... 等表示因素 A A A 的不同水平。
单因素方差分析
如果在一项试验中,只让一个因素的水平变动,其余因素的水平保持不变,那么称这种试验为单因素试验。在单因素试验下进行的方差分析称为单因素方差分析。
数学模型
设因素 A A A 有 r r r 个不同的水平 A 1 , A 2 , . . . , A r A_1,A_2,...,A_r A1,A2,...,Ar,在每个水平 A i A_i Ai 下,进行 n i n_i ni 次独立重复试验,得到下表的结果
水平 | 样本 | 样本均值 |
---|---|---|
A 1 A_1 A1 | X 11 X 12 ⋯ X 1 n 1 X_{11} \quad X_{12} \quad \cdots \quad X_{1n_1} X11X12⋯X1n1 | X ˉ 1 \bar{X}_1 Xˉ1 |
A 2 A_2 A2 | X 21 X 22 ⋯ X 2 n 2 X_{21} \quad X_{22} \quad \cdots \quad X_{2n_2} X21X22⋯X2n2 | X ˉ 2 \bar{X}_2 Xˉ2 |
⋮ \vdots ⋮ | ⋯ ⋯ ⋯ \cdots \quad \cdots \quad \quad \quad \quad\cdots ⋯⋯⋯ | ⋮ \vdots ⋮ |
A r A_r Ar | X r 1 X r 2 ⋯ X r n r X_{r1} \quad X_{r2} \quad \cdots \quad X_{rn_r} Xr1Xr2⋯Xrnr | X ˉ r \bar{X}_r Xˉr |
假定各个水平 A i A_i Ai 对应的总体 X i X_i Xi 服从正态分布 N ( μ i , σ 2 ) N(\mu_i,\sigma^2) N(μi,σ2),又假定来自不同水平 A i A_i Ai 的样本之间是相互独立的。简而言之,正态总体、同方差、独立样本是进行方差分析的三个基本假定。
由于
X
i
j
∼
N
(
μ
i
,
σ
2
)
,
j
=
1
,
2
,
.
.
.
,
n
i
X_{ij} \sim N(\mu_i,\sigma^2),j=1,2,...,n_i
Xij∼N(μi,σ2),j=1,2,...,ni,因而
X
i
j
−
μ
i
∼
N
(
0
,
σ
2
)
X_{ij}-\mu_i \sim N(0,\sigma^2)
Xij−μi∼N(0,σ2),记
ϵ
i
j
=
X
i
j
−
μ
i
\epsilon_{ij}=X_{ij}-\mu_i
ϵij=Xij−μi,于是
X
i
j
=
μ
i
+
ε
i
j
,
j
=
1
,
⋯
,
n
i
;
i
=
1
,
⋯
,
r
ε
i
j
∼
N
(
0
,
σ
2
)
,
j
=
1
,
⋯
,
n
i
;
i
=
1
,
⋯
,
r
ε
11
,
⋯
,
ε
r
n
i
相互独立
.
\begin{aligned}&X_{ij}=\mu_i+\varepsilon_{ij},j=1,\cdots,n_i;i=1,\cdots,r\\&\varepsilon_{ij}\sim N(0,\sigma^2),j=1,\cdots,n_i;i=1,\cdots,r\\&\varepsilon_{11},\cdots,\varepsilon_{rn_i}\text{相互独立}.\end{aligned}
Xij=μi+εij,j=1,⋯,ni;i=1,⋯,rεij∼N(0,σ2),j=1,⋯,ni;i=1,⋯,rε11,⋯,εrni相互独立. 构成了单因素方差分析的数学模型,其中
μ
i
\mu_i
μi 和
σ
2
\sigma^2
σ2 是模型中待定的未知参数。
方差分析的基本任务是对上述模型检验假设
H
0
:
μ
1
=
μ
2
=
⋯
=
μ
r
↔
H
1
:
μ
1
,
μ
2
,
.
.
.
,
μ
r
不全相等
H_0:\mu_1=\mu_2=\cdots = \mu_r \leftrightarrow H_1:\mu_1,\mu_2,...,\mu_r 不全相等
H0:μ1=μ2=⋯=μr↔H1:μ1,μ2,...,μr不全相等 也就是通过对试验数据的分析,来检验同方差的各正态总体的均值是否相等,从而推断因素是否对试验指标产生显著影响。
为了便于分析,引入下述记号,令
n
=
∑
i
=
1
r
n
i
,
μ
=
1
n
∑
i
=
1
r
n
i
μ
i
,
δ
i
=
μ
i
−
μ
n=\sum_{i=1}^r n_i,\quad \mu=\frac{1}{n}\sum_{i=1}^r n_i\mu_i,\quad \delta_i=\mu_i-\mu
n=i=1∑rni,μ=n1i=1∑rniμi,δi=μi−μ 其中,
μ
\mu
μ 称为理论总平均,
δ
i
\delta_i
δi 称为水平
A
i
A_i
Ai 的效应,它反映因素的第
i
i
i 个水平
A
i
A_i
Ai 对试验指标作用的大小。
δ
1
,
.
.
.
,
δ
r
\delta_1,...,\delta_r
δ1,...,δr 满足关系式
∑
i
=
1
r
n
i
δ
i
=
0
\sum_{i=1}^r n_i\delta_i = 0
∑i=1rniδi=0.
由这些记号,前面提出的模型可改写为
X
i
j
=
μ
+
δ
i
+
ε
i
j
,
j
=
1
,
2
,
⋯
,
n
i
,
i
=
1
,
2
,
⋯
,
r
∑
i
=
1
r
n
i
δ
i
=
0
,
ε
i
j
∼
N
(
0
,
σ
2
)
,
j
=
1
,
2
,
⋯
,
n
i
;
i
=
1
,
2
,
⋯
,
r
ε
11
,
⋯
,
ε
r
n
i
相互独立
.
}
\begin{rcases}X_{ij}=\mu+\delta_i+\varepsilon_{ij},j=1,2,\cdots,n_i,i=1,2,\cdots,r\\\sum_{i=1}^rn_i\delta_i=0,\\\varepsilon_{ij}\sim N(0,\sigma^2),j=1,2,\cdots,n_i;i=1,2,\cdots,r\\\varepsilon_{11},\cdots,\varepsilon_{rn_i}\text{ 相互独立}.\end{rcases}
Xij=μ+δi+εij,j=1,2,⋯,ni,i=1,2,⋯,r∑i=1rniδi=0,εij∼N(0,σ2),j=1,2,⋯,ni;i=1,2,⋯,rε11,⋯,εrni 相互独立.⎭
⎬
⎫
对上述模型,欲检验的假设是
H
0
:
δ
1
=
δ
2
=
⋯
=
δ
r
=
0
↔
H
1
:
δ
1
,
δ
2
,
.
.
.
,
δ
r
不全为零
H_0:\delta_1=\delta_2=\cdots = \delta_r =0\leftrightarrow H_1:\delta_1,\delta_2,...,\delta_r 不全为零
H0:δ1=δ2=⋯=δr=0↔H1:δ1,δ2,...,δr不全为零
在方差分析中,采用平方和分解法把整批数据总的离差平方和分解为若干部分,其中,有的反映因素的效应,称之为因素的效应平方和,有的反映随机波动所引起的误差,称之为误差平方和。通过分析它们的比值的大小,一次性完成对假设的检验工作。
统计分析
首先,引入以下记号:
ϵ
ˉ
i
=
1
n
i
∑
j
=
1
n
i
ϵ
i
j
,
i
=
1
,
⋯
,
r
ϵ
ˉ
=
1
n
∑
i
=
1
r
∑
j
=
1
n
i
ϵ
i
j
=
1
n
∑
i
=
1
r
n
i
ϵ
ˉ
i
X
ˉ
i
=
1
n
i
∑
j
=
1
n
i
X
i
j
,
i
=
1
,
⋯
,
r
X
ˉ
=
1
n
∑
i
=
1
r
∑
j
=
1
n
i
X
i
j
=
1
n
∑
i
=
1
r
n
i
X
ˉ
i
}
.
\left.\left.\begin{array}{ll}\bar{\epsilon}_i=\frac1{n_i}\sum_{j=1}^{n_i}\epsilon_{ij},i=1,\cdots,r\\\\\bar{\epsilon}=\frac1n\sum_{i=1}^r\sum_{j=1}^{n_i}\epsilon_{ij}=\frac1n\sum_{i=1}^rn_i\bar{\epsilon}_i\\\\\bar{X}_i=\frac1{n_i}\sum_{j=1}^{n_i}X_{ij},i=1,\cdots,r\\\\\bar{X}=\frac1n\sum_{i=1}^r\sum_{j=1}^{n_i}X_{ij}=\frac1n\sum_{i=1}^rn_i\bar{X}_i\end{array}\right.\right\}\quad.
ϵˉi=ni1∑j=1niϵij,i=1,⋯,rϵˉ=n1∑i=1r∑j=1niϵij=n1∑i=1rniϵˉiXˉi=ni1∑j=1niXij,i=1,⋯,rXˉ=n1∑i=1r∑j=1niXij=n1∑i=1rniXˉi⎭
⎬
⎫.
由概率论知识可知
ϵ
ˉ
i
∼
N
(
0
,
σ
2
n
i
)
,
i
=
1
,
⋯
,
r
ϵ
ˉ
∼
N
(
0
,
σ
2
n
)
,
X
ˉ
i
=
μ
+
δ
i
+
ϵ
ˉ
i
∼
N
(
μ
+
δ
i
,
σ
2
n
i
)
,
i
=
1
,
⋯
,
r
X
‾
=
μ
+
ε
ˉ
∼
N
(
μ
,
σ
2
n
)
}
\begin{rcases}\bar{\epsilon}_i\sim N\Big(0,\frac{\sigma^2}{n_i}\Big),i=1,\cdots,r\\\bar{\epsilon}\sim N\Big(0,\frac{\sigma^2}n\Big),\\\bar{X}_i=\mu+\delta_i+\bar{\epsilon}_i\sim N\Big(\mu+\delta_i,\frac{\sigma^2}{n_i}\Big),i=1,\cdots,r\\\overline{X}=\mu+\bar{\varepsilon}\sim N\Big(\mu,\frac{\sigma^2}n\Big)\end{rcases}
ϵˉi∼N(0,niσ2),i=1,⋯,rϵˉ∼N(0,nσ2),Xˉi=μ+δi+ϵˉi∼N(μ+δi,niσ2),i=1,⋯,rX=μ+εˉ∼N(μ,nσ2)⎭
⎬
⎫
齐次,引入总的偏差平方和
Q
T
=
∑
i
=
1
r
∑
j
=
1
n
i
(
X
i
j
−
X
ˉ
)
2
Q_{T}=\sum_{i=1}^{r}\sum_{j=1}^{n_{i}}(X_{ij}-\bar{X})^{2}
QT=i=1∑rj=1∑ni(Xij−Xˉ)2
由于
X
ˉ
\bar{X}
Xˉ 是整批数据的平均值,而
Q
T
Q_T
QT 是整批数据方差的
n
n
n 倍,即
Q
T
Q_T
QT 反映了数据的波动程度,因而
Q
T
Q_T
QT 被称为总离差平方和。
Q
T
Q_T
QT 可分解为
Q
T
=
Q
A
+
Q
E
Q_T=Q_A+Q_E
QT=QA+QE,其中
Q
A
=
∑
i
=
1
r
n
i
(
X
ˉ
i
−
X
ˉ
)
2
Q
E
=
∑
i
=
1
r
∑
j
=
1
n
i
(
X
i
j
−
X
ˉ
i
)
2
Q_A=\sum_{i=1}^r n_i(\bar{X}_i-\bar{X})^2 \\ Q_E=\sum_{i=1}^{r}\sum_{j=1}^{n_{i}}(X_{ij}-\bar{X}_i)^{2}
QA=i=1∑rni(Xˉi−Xˉ)2QE=i=1∑rj=1∑ni(Xij−Xˉi)2
Q
A
Q_A
QA 称为因素
A
A
A 的效应平方和(又称为组间平方和),
Q
E
Q_E
QE 称为误差平方和(又称为组内平方和)。
当
H
0
H_0
H0 成立时,
Q
A
Q_A
QA 与
Q
E
Q_E
QE 相互独立,且有
F
=
Q
A
/
σ
2
r
−
1
Q
E
/
σ
2
n
−
r
=
Q
A
/
(
r
−
1
)
Q
E
/
(
n
−
r
)
∼
F
(
r
−
1
,
n
−
r
)
F=\frac{\frac{Q_A/\sigma^2}{r-1}}{\frac{Q_E/\sigma^2}{n-r}}=\frac{Q_A/(r-1)}{Q_E/(n-r)}\thicksim F(r-1,n-r)
F=n−rQE/σ2r−1QA/σ2=QE/(n−r)QA/(r−1)∼F(r−1,n−r)
对给定的显著水平
α
\alpha
α,得
H
0
H_0
H0 的拒绝域为
W
=
{
F
≥
F
α
(
r
−
1
,
n
−
r
)
}
W=\{F \ge F_\alpha(r-1,n-r)\}
W={F≥Fα(r−1,n−r)}。
通常将计算结果列成方差分析表:
方差来源 | 平方和 | 自由度 | 均方和 | F F F 值 |
---|---|---|---|---|
因素 A A A (组间) | Q A = ∑ i = 1 r n i ( x ˉ i − x ˉ ) 2 Q_A=\sum_{i=1}^r n_i(\bar{x}_i-\bar{x})^2 QA=∑i=1rni(xˉi−xˉ)2 | r − 1 r-1 r−1 | Q ˉ A = Q A r − 1 \bar{Q}_A=\frac{Q_A}{r-1} QˉA=r−1QA | F = Q ˉ A Q ˉ E F=\frac{\bar{Q}_A}{\bar{Q}_E} F=QˉEQˉA |
方差 E E E (组内) | Q E = ∑ i = 1 r ∑ j = 1 n i ( x i j − x ˉ i ) 2 Q_E=\sum_{i=1}^{r}\sum_{j=1}^{n_{i}}(x_{ij}-\bar{x}_i)^{2} QE=∑i=1r∑j=1ni(xij−xˉi)2 | n − r n-r n−r | Q ˉ E = Q E n − r \bar{Q}_E=\frac{Q_E}{n-r} QˉE=n−rQE | |
总和 | Q T = ∑ i = 1 r ∑ j = 1 n i ( x i j − x ˉ ) 2 Q_{T}=\sum_{i=1}^{r}\sum_{j=1}^{n_{i}}(x_{ij}-\bar{x})^{2} QT=∑i=1r∑j=1ni(xij−xˉ)2 | n − 1 n-1 n−1 |
参考文献
[1] 《应用数理统计》,施雨,西安交通大学出版社。