方差分析
一、基本概念
1.1 定义
- 研究一个(或多个)分类自变量如何影响一个数值因变量的统计分析方法
1.2 目的
- 判断某些因素对于我们感兴趣的因变量是否具有“显著”的影响
- 如果因素间有交互效应,寻找最佳搭配方案
1.3 特点
- 方差分析与一般的假设检验:方差分析处理的是多个均值的情况
- 方差分析与回归、相关分析:回归与相关处理的是两个数值变量的问题,相应的散点在 x x x 轴上具有顺序(从小到大),而方差分析的数据在 x x x 轴上可以任意交换位置。
1.4 数学模型
1、定义
- 响应变量(因变量):进行随机试验所考察的数值指标
- 因素或因子(自变量):影响因变量的各不同分类原因
- 水平:各个因素所构成的组或者类型
2、例子:考察小麦产量( y y y)对于品种和施肥量的关系(两个不同的小麦品种,三个不同的施肥等级)
- 品种是否对产量有影响 ⇔ H 01 : α 1 = α 2 \Leftrightarrow H_{01}: \alpha_1 = \alpha_2 ⇔H01:α1=α2
- 施肥量是否对产量有影响
⇔
H
02
:
β
1
=
β
2
=
β
3
\Leftrightarrow H_{02}: \beta_1 = \beta_2 = \beta_3
⇔H02:β1=β2=β3
Y = X β + ε Y = X\beta + \varepsilon Y=Xβ+ε
{ y 11 = θ 0 + α 1 + β 1 + ε 11 y 12 = θ 0 + α 1 + β 2 + ε 12 y 13 = θ 0 + α 1 + β 3 + ε 13 y 21 = θ 0 + α 2 + β 1 + ε 21 y 22 = θ 0 + α 2 + β 2 + ε 22 y 23 = θ 0 + α 2 + β 3 + ε 23 \begin{cases} y_{11} = \theta_0 + \alpha_1 + \beta_1 + \varepsilon_{11} \\ y_{12} = \theta_0 + \alpha_1 + \beta_2 + \varepsilon_{12} \\ y_{13} = \theta_0 + \alpha_1 + \beta_3 + \varepsilon_{13} \\ y_{21} = \theta_0 + \alpha_2 + \beta_1 + \varepsilon_{21} \\ y_{22} = \theta_0 + \alpha_2 + \beta_2 + \varepsilon_{22} \\ y_{23} = \theta_0 + \alpha_2 + \beta_3 + \varepsilon_{23} \end{cases} ⎩⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎧y11=θ0+α1+β1+ε11y12=θ0+α1+β2+ε12y13=θ0+α1+β3+ε13y21=θ0+α2+β1+ε21y22=θ0+α2+β2+ε22y23=θ0+α2+β3+ε23
二、单因素方差分析
2.1 数据的结构
y
i
j
=
β
i
+
ε
i
j
,
1
≤
j
≤
n
i
、
1
≤
i
≤
r
y_{ij} = \beta_i + \varepsilon_{ij} ,\,\,\,\,\,\, 1 \le j \le n_i 、1 \le i \le r
yij=βi+εij,1≤j≤ni、1≤i≤r
主要任务:
- 检验假设: H 0 : β 1 = β 2 = . . . = β r H_0: \beta_1 = \beta_2 = ... = \beta_r H0:β1=β2=...=βr
- 作出未知参数: β 1 , β 2 , . . . , β r \beta_1, \beta_2, ... , \beta_r β1,β2,...,βr 以及 σ 2 \sigma^2 σ2 估计
2.2 因子效应与误差方差的估计
- 按照模型的假定,因变量的观察值来自 r r r 个不同的正态总体
- y 11 , . . . , y 1 n 1 y_{11}, ..., y_{1n1} y11,...,y1n1 来自总体 N ( β 1 , σ 2 ) N(\beta_1, \sigma^2) N(β1,σ2)
- 未知参数 β 1 , β 2 , . . . , β r \beta_1, \beta_2, ... , \beta_r β1,β2,...,βr 的估计就采用各个总体的样本均值
2.3 相关定义
- 因素各水平效应的估计采用各个组内平均
β i ^ = y i ‾ = 1 n i ∑ j = 1 n i y i j ⇔ N ( β i , σ 2 n i ) , 1 ≤ i ≤ r \hat{\beta_i} = \overline{y_i} = \frac{1}{n_i} \sum_{j=1}^{n_i} y_{ij} \Leftrightarrow N(\beta_i, \frac{\sigma^2}{n_i}), 1 \le i \le r βi^=yi=ni1j=1∑niyij⇔N(βi,niσ2),1≤i≤r - 误差方差
σ
2
\sigma^2
σ2 的估计利用残差平方和
σ ^ 2 = R S S n − r = 1 n − r ∑ i = 1 r ∑ j = 1 n s ( y i j − y i ‾ ) 2 \hat{\sigma}^2 = \frac{RSS}{n-r} = \frac{1}{n-r} \sum_{i=1}^r \sum_{j=1}^{n_s} (y_{ij} - \overline{y_i})^2 σ^2=n−rRSS=n−r1i=1∑rj=1∑ns(yij−yi)2
( n − r ) σ ^ 2 σ 2 ⇔ χ 2 ( n − r ) \frac{(n-r)\hat{\sigma}^2}{\sigma^2} \Leftrightarrow \chi^2(n-r) σ2(n−r)σ^2⇔χ2(n−r) - β 1 ^ , β 2 ^ , . . . , β r ^ , σ ^ 2 \hat{\beta_1}, \hat{\beta_2}, ... , \hat{\beta_r}, \hat{\sigma}^2 β1^,β2^,...,βr^,σ^2 之间相互独立
2.4 方差分析平方和分解公式
- 总平方和:表示因变量总的变化。(因子不同的水平,随机误差)
T S S = ∑ i = 1 r ∑ j = 1 n i ( y i j − y ‾ ) 2 TSS = \sum_{i=1}^{r} \sum_{j=1}^{n_i}(y_{ij} - \overline{y})^2 TSS=i=1∑rj=1∑ni(yij−y)2 - 自变量平方和:表示自变量在因变量的变化中所占的份额
C S S = ∑ i = 1 r n i ( y i ‾ − y ‾ ) 2 CSS = \sum_{i=1}^{r} n_i (\overline{y_i} - \overline{y})^2 CSS=i=1∑rni(yi−y)2 - 残差平方和:表示由其它原因引起的因变量变化
R S S = ∑ i = 1 r ∑ j = 1 n i ( y i j − y i ‾ ) 2 RSS = \sum_{i=1}^{r} \sum_{j=1}^{n_i}(y_{ij} - \overline{y_i})^2 RSS=i=1∑rj=1∑ni(yij−yi)2
T S S = C S S + R S S TSS = CSS + RSS TSS=CSS+RSS
2.5 单因素方差分析的检验
- 如果零假设
H
0
:
β
1
=
β
2
=
.
.
.
=
β
r
H_0: \beta_1 = \beta_2 = ... = \beta_r
H0:β1=β2=...=βr 成立,则
C S S σ 2 ⇔ χ 2 ( r − 1 ) \frac{CSS}{\sigma^2} \Leftrightarrow \chi^2(r-1) σ2CSS⇔χ2(r−1) - 检验统计量
F 比 = n − r r − 1 C S S R S S ⇔ F ( r − 1 , n − r ) F比 = \frac{n-r}{r-1} \frac{CSS}{RSS} \Leftrightarrow F(r-1, n-r) F比=r−1n−rRSSCSS⇔F(r−1,n−r) - 拒绝域
F ≥ F α ( r − 1 , n − r ) F \ge F_\alpha(r-1, n-r) F≥Fα(r−1,n−r)
2.6 单因素方差分析表
C M S = C S S r − 1 , R M S = R S S n − r , F − 比 = C M S R M S CMS = \frac{CSS}{r-1}, RMS = \frac{RSS}{n-r}, F-比 = \frac{CMS}{RMS} CMS=r−1CSS,RMS=n−rRSS,F−比=RMSCMS
2.7 变量关系的强度
R 2 = 自 变 量 平 方 和 总 平 方 和 = C S S T S S R^2 = \frac{自变量平方和}{总平方和} = \frac{CSS}{TSS} R2=总平方和自变量平方和=TSSCSS
三、双因素方差分析
3.1 数据的结构
y
i
j
k
=
μ
+
α
i
+
β
j
+
γ
i
j
+
ε
i
j
k
,
1
≤
i
≤
r
,
1
≤
j
≤
s
,
1
≤
k
≤
l
,
ε
i
j
k
⇔
N
(
0
,
σ
2
)
y_{ijk} = \mu + \alpha_i + \beta_j + \gamma_{ij} + \varepsilon_{ijk}, 1 \le i \le r, 1 \le j \le s, 1 \le k \le l, \varepsilon_{ijk} \Leftrightarrow N(0, \sigma^2)
yijk=μ+αi+βj+γij+εijk,1≤i≤r,1≤j≤s,1≤k≤l,εijk⇔N(0,σ2)
主要任务:
- 因子的主效应是否显著,即检验: H 01 : α 1 = α 2 = . . . = α r H_{01}: \alpha_1 = \alpha_2 = ... = \alpha_r H01:α1=α2=...=αr,以及 H 02 : β 1 = β 2 = . . . = β s H_{02}: \beta_1 = \beta_2 = ... = \beta_s H02:β1=β2=...=βs
- 交互效应是否显著: H 03 : γ 11 = γ 12 = . . . = γ r s H_{03}: \gamma_{11} = \gamma_{12} = ... = \gamma_{rs} H03:γ11=γ12=...=γrs
- 如果拒绝了 H 03 H_{03} H03 ,还应该寻找最佳搭配。
3.2 相关定义
- 总平均
y ‾ = 1 r s l ∑ i = 1 r ∑ j = 1 s ∑ k = 1 l y i j k \overline{y} = \frac{1}{rsl} \sum_{i=1}^r \sum_{j=1}^s \sum_{k=1}^l y_{ijk} y=rsl1i=1∑rj=1∑sk=1∑lyijk - 误差平均
y i j ⋅ ‾ = 1 l ∑ k = 1 l y i j k \overline{y_{ij·}} = \frac{1}{l} \sum_{k=1}^l y_{ijk} yij⋅=l1k=1∑lyijk -
A
A
A 因素平均
y i ⋅ ⋅ ‾ = 1 s ∑ j = 1 s y i j ⋅ ‾ \overline{y_{i··}} = \frac{1}{s} \sum_{j=1}^s \overline{y_{ij·}} yi⋅⋅=s1j=1∑syij⋅ -
B
B
B 因素平均
y ⋅ j ⋅ ‾ = 1 r ∑ i = 1 r y i j ⋅ ‾ \overline{y_{·j·}} = \frac{1}{r} \sum_{i=1}^r \overline{y_{ij·}} y⋅j⋅=r1i=1∑ryij⋅
3.3 方差分析平方和分解公式
- 总平方和
T S S = ∑ i = 1 r ∑ j = 1 s ∑ k = 1 l ( y i j k − y ‾ ) 2 TSS = \sum_{i=1}^r \sum_{j=1}^s \sum_{k=1}^l (y_{ijk} - \overline{y})^2 TSS=i=1∑rj=1∑sk=1∑l(yijk−y)2 -
A
A
A 因子主效应平方和
S S A = s l ∑ i = 1 r ( y ‾ i ⋅ ⋅ − y ‾ ) 2 SSA = sl \sum_{i=1}^r (\overline{y}_{i··} - \overline{y})^2 SSA=sli=1∑r(yi⋅⋅−y)2 -
B
B
B 因子主效应平方和
S S B = r l ∑ j = 1 s ( y ‾ ⋅ j ⋅ − y ‾ ) 2 SSB = rl \sum_{j=1}^s (\overline{y}_{·j·} - \overline{y})^2 SSB=rlj=1∑s(y⋅j⋅−y)2 - 交互效应平方和
S S A B = l ∑ i = 1 r ∑ j = 1 s ( y ‾ i j ⋅ − y ‾ i ⋅ ⋅ − y ‾ ⋅ j ⋅ + y ‾ ) 2 SSAB = l \sum_{i=1}^r \sum_{j=1}^s (\overline{y}_{ij·} - \overline{y}_{i··} - \overline{y}_{·j·} + \overline{y})^2 SSAB=li=1∑rj=1∑s(yij⋅−yi⋅⋅−y⋅j⋅+y)2 - 随机误差平方和
R S S = ∑ i = 1 r ∑ j = 1 s ∑ k = 1 l ( y i j k − y ‾ i j ⋅ ) 2 RSS = \sum_{i=1}^r \sum_{j=1}^s \sum_{k=1}^l (y_{ijk} - \overline{y}_{ij·})^2 RSS=i=1∑rj=1∑sk=1∑l(yijk−yij⋅)2
T S S = S S A + S S B + S S A B + R S S TSS = SSA + SSB +SSAB + RSS TSS=SSA+SSB+SSAB+RSS
3.4 单因素方差分析的检验
- R S S σ 2 \frac{RSS}{\sigma^2} σ2RSS~ χ 2 ( r s ( l − 1 ) ) \chi^2(rs(l-1)) χ2(rs(l−1))
- 当 H 01 H_{01} H01 成立时, S S A σ 2 \frac{SSA}{\sigma^2} σ2SSA~ χ 2 ( r − 1 ) \chi^2(r-1) χ2(r−1)
- 当 H 02 H_{02} H02 成立时, S S B σ 2 \frac{SSB}{\sigma^2} σ2SSB~ χ 2 ( s − 1 ) \chi^2(s-1) χ2(s−1)
- 当 H 03 H_{03} H03 成立时, S S A B σ 2 \frac{SSAB}{\sigma^2} σ2SSAB~ χ 2 ( ( r − 1 ) ( s − 1 ) ) \chi^2((r-1)(s-1)) χ2((r−1)(s−1))
- 对于零假设
H
01
:
α
1
=
α
2
=
.
.
.
=
α
r
H_{01}: \alpha_1 = \alpha_2 = ... = \alpha_r
H01:α1=α2=...=αr,相应的统计量及拒绝域为
F A = r s ( l − 1 ) r − 1 S S A R S S ⇔ F ( r − 1 , r s ( l − 1 ) ) F_A = \frac {rs(l-1)} {r-1} \frac{SSA}{RSS} \Leftrightarrow F(r-1, rs(l-1)) FA=r−1rs(l−1)RSSSSA⇔F(r−1,rs(l−1))
{ F A ≥ F α ( r − 1 , r s ( l − 1 ) ) } \{ F_A \ge F_\alpha(r-1, rs(l-1)) \} {FA≥Fα(r−1,rs(l−1))} - 对于零假设
H
02
:
β
1
=
β
2
=
.
.
.
=
β
s
H_{02}: \beta_1 = \beta_2 = ... = \beta_s
H02:β1=β2=...=βs,相应的统计量及拒绝域为
F B = r s ( l − 1 ) s − 1 S S B R S S ⇔ F ( s − 1 , r s ( l − 1 ) ) F_B = \frac {rs(l-1)} {s-1} \frac{SSB}{RSS} \Leftrightarrow F(s-1, rs(l-1)) FB=s−1rs(l−1)RSSSSB⇔F(s−1,rs(l−1))
{ F B ≥ F α ( s − 1 , r s ( l − 1 ) ) } \{ F_B \ge F_\alpha(s-1, rs(l-1)) \} {FB≥Fα(s−1,rs(l−1))} - 对于零假设
H
03
:
γ
11
=
γ
12
=
.
.
.
=
γ
r
s
H_{03}: \gamma_{11} = \gamma_{12} = ... = \gamma_{rs}
H03:γ11=γ12=...=γrs,相应的统计量及拒绝域为
F A B = r s ( l − 1 ) ( r − 1 ) ( s − 1 ) S S A B R S S ⇔ F ( ( r − 1 ) ( s − 1 ) , r s ( l − 1 ) ) F_{AB} = \frac {rs(l-1)} {(r-1)(s-1)} \frac{SSAB}{RSS} \Leftrightarrow F((r-1)(s-1), rs(l-1)) FAB=(r−1)(s−1)rs(l−1)RSSSSAB⇔F((r−1)(s−1),rs(l−1))
{ F A B ≥ F α ( ( r − 1 ) ( s − 1 ) , r s ( l − 1 ) ) } \{ F_{AB} \ge F_\alpha((r-1)(s-1), rs(l-1)) \} {FAB≥Fα((r−1)(s−1),rs(l−1))}