在一般的回归教材中,都不会提到经典的方差分析,而在数理统计教材中,方差分析又往往作为独立于回归分析的章节存在。所以我们一般不会去思考方差分析与回归分析之间的关系。而事实上,方差分析就是一种特殊的回归分析,oneway-anova和一元线性回归时完全等价的!
oneway-anova
举个栗子,一个因子A下有三个水平
A
1
,
A
2
,
A
3
A_1,A_2,A_3
A1,A2,A3,我们要比较这三个水平间是否有显著的差异, 每一个
A
i
A_i
Ai的观测都是
y
i
1
,
y
i
2
,
.
.
.
,
y
i
n
i
y_{i1},y_{i2},...,y_{in_i}
yi1,yi2,...,yini,各水平均值记为
μ
i
{\mu}_i
μi, 总体均值记为
μ
\mu
μ, 水平效应
a
i
=
μ
−
μ
i
a_i=\mu-\mu_i
ai=μ−μi, 总观测数为
n
=
n
1
+
n
2
+
n
3
n=n_1+n_2+n_3
n=n1+n2+n3。
H
0
:
a
1
=
a
2
=
a
3
=
0
H_0:a_1=a_2=a_3=0
H0:a1=a2=a3=0
F
=
S
A
/
f
A
S
e
/
f
e
∼
F
(
f
A
,
f
e
)
=
F
(
2
,
n
−
3
)
F=\frac{S_A/f_A}{S_e/f_e} \sim F(f_A,f_e) =F(2,n-3)
F=Se/feSA/fA∼F(fA,fe)=F(2,n−3)
其中,
S
A
S_A
SA 是组间偏差平方和,
S
e
S_e
Se 是组内偏差平方和。
一元线性回归
上述方差分析的目的在于检验3个水平间是否有差距,放在线性回归里,检验3个水平是否有差距的方法就是把三个水平上的观测值作为因变量,把水平的类别作为自变量,然后检验回归系数的显著性。
可以通过设置哑变量,实现将水平类别作为自变量。因为有3个水平,所以可设置2个哑变量
x
1
,
x
2
x_1,x_2
x1,x2, 则3个水平对应的
(
x
1
,
x
2
)
(x_1,x_2)
(x1,x2) 取值分别为 (0,0), (1,0), (0,1)。再考虑上截距项,设计矩阵为:
X
X
X =
(
1
0
0
.
.
.
.
.
.
1
1
0
.
.
.
.
.
.
1
0
1
.
.
.
.
.
.
)
n
∗
3
\left( \begin{array}{ccc} 1&0&0\\..&..&..\\1&1&0\\..&..&..\\1&0&1\\..&..&.. \end{array} \right)_{n*3}
⎝⎜⎜⎜⎜⎜⎜⎛1..1..1..0..1..0..0..0..1..⎠⎟⎟⎟⎟⎟⎟⎞n∗3
回归方程为:
Y
=
X
β
+
ϵ
Y = X\beta +\epsilon
Y=Xβ+ϵ
因变量取值为:
y
=
(
y
11
,
.
.
.
,
y
1
n
1
,
y
21
,
.
.
.
,
y
2
n
2
,
y
31
,
.
.
.
,
y
3
n
3
)
T
y = (y_{11},...,y_{1n_1},y_{21},...,y_{2n_2},y_{31},...,y_{3n_3})^T
y=(y11,...,y1n1,y21,...,y2n2,y31,...,y3n3)T
使用最小二乘法解得:
β
^
=
(
X
′
X
)
−
1
X
′
y
=
(
μ
1
,
−
μ
1
+
μ
2
,
−
μ
1
+
μ
3
)
T
\hat{\beta} = (X'X)^{-1}X'y=(\mu_1,-\mu_1+\mu_2, -\mu_1+\mu_3)^T
β^=(X′X)−1X′y=(μ1,−μ1+μ2,−μ1+μ3)T
H
0
:
β
1
=
β
2
=
β
3
=
0
H_0:\beta_1=\beta_2=\beta_3=0
H0:β1=β2=β3=0
F
=
S
S
R
/
p
S
S
E
/
n
−
p
−
1
∼
F
(
p
,
n
−
p
−
1
)
=
F
(
2
,
n
−
3
)
F=\frac{SSR/p}{SSE/n-p-1}\sim F(p,n-p-1)=F(2,n-3)
F=SSE/n−p−1SSR/p∼F(p,n−p−1)=F(2,n−3)
anova vs. 一元线性回归
上面可以看出,两个统计量服从的是一模一样的分布 F ( 2 , n − 3 ) F(2,n-3) F(2,n−3)。那么从其他的角度看呢?
数值的关系
事实上,根据
S
A
,
S
e
,
S
S
R
,
S
S
E
S_A,S_e,SSR,SSE
SA,Se,SSR,SSE 的定义,以及上面求出的
β
^
=
(
μ
1
,
−
μ
1
+
μ
2
,
−
μ
1
+
μ
3
)
T
\hat{\beta} =(\mu_1,-\mu_1+\mu_2, -\mu_1+\mu_3)^T
β^=(μ1,−μ1+μ2,−μ1+μ3)T, 我们可以得出数值上的关系:
S
A
=
S
S
R
S_A=SSR
SA=SSR,
S
e
=
S
S
E
S_e=SSE
Se=SSE.
原假设的关系
对于anova的原假设
H
0
:
a
1
=
a
2
=
a
3
=
0
H_0:a_1=a_2=a_3=0
H0:a1=a2=a3=0 和线性回归的原假设
H
0
:
β
1
=
β
2
=
β
3
=
0
H_0:\beta_1=\beta_2=\beta_3=0
H0:β1=β2=β3=0而言,都可以写为
H
0
:
μ
1
=
μ
2
=
μ
3
=
0
H_0:\mu_ 1=\mu_2=\mu_3=0
H0:μ1=μ2=μ3=0.
参考文献
《概率论与数理统计》,茆诗松,P423-432
《应用回归分析》,何晓群,P71