双因素无重复试验方差分析的数据模型
X
X
X是一个
r
×
s
r\times s
r×s的矩阵,
X
i
j
X_{ij}
Xij~
N
(
μ
i
j
,
σ
2
)
N(\mu_{ij},\sigma^2)
N(μij,σ2)。令
X
‾
=
1
r
s
∑
i
=
1
r
∑
j
=
1
s
X
i
j
\overline{X}=\frac{1}{rs}\sum\limits_{i=1}^r\sum\limits_{j=1}^{s}X_{ij}
X=rs1i=1∑rj=1∑sXij,
X
‾
i
⋅
=
1
r
∑
j
=
1
s
X
i
j
\overline{X}_{i\cdot}=\frac{1}{r}\sum\limits_{j=1}^{s}X_{ij}
Xi⋅=r1j=1∑sXij,
X
‾
⋅
j
=
1
r
∑
i
=
1
r
X
i
j
\overline{X}_{\cdot j}=\frac{1}{r}\sum\limits_{i=1}^{r}X_{ij}
X⋅j=r1i=1∑rXij,
i
=
1
,
2
,
⋅
,
r
,
j
=
1
,
2
,
⋯
,
s
i=1,2,\cdot,r,j=1,2,\cdots,s
i=1,2,⋅,r,j=1,2,⋯,s。与双因素等重复试验方差分析相仿,样本数据总变差
S
T
=
∑
i
=
1
r
∑
j
=
1
s
(
X
i
j
−
X
‾
)
2
S_T=\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{s}(X_{ij}-\overline{X})^2
ST=i=1∑rj=1∑s(Xij−X)2,可分解为因素
A
A
A的效应平方和
S
A
=
s
∑
i
=
1
r
(
X
‾
i
⋅
−
X
‾
)
2
S_A=s\sum\limits_{i=1}^{r}(\overline{X}_{i\cdot}-\overline{X})^2
SA=si=1∑r(Xi⋅−X)2,因素
B
B
B的效应平方和
S
B
=
r
∑
j
=
1
s
(
X
‾
⋅
j
−
X
‾
)
2
S_B=r\sum\limits_{j=1}^{s}(\overline{X}_{\cdot j}-\overline{X})^2
SB=rj=1∑s(X⋅j−X)2,误差平方和
S
E
=
∑
i
=
1
r
∑
j
=
1
s
(
X
i
j
−
X
‾
i
⋅
−
X
‾
⋅
j
+
X
‾
)
2
S_E=\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{s}(X_{ij}-\overline{X}_{i\cdot}-\overline{X}_{\cdot j}+\overline{X})^2
SE=i=1∑rj=1∑s(Xij−Xi⋅−X⋅j+X)2之和,即
S
T
=
S
A
+
S
B
+
S
E
.
S_T=S_A+S_B+S_E.
ST=SA+SB+SE.
利用这些数据,希望在显著水平
α
\alpha
α下检验假设
H
01
:
μ
i
⋅
−
μ
=
0
,
i
=
1
,
2
,
⋯
,
r
,
H
02
:
μ
⋅
j
−
μ
=
0
,
j
=
1
,
2
,
⋯
,
s
.
H_{01}:\mu_{i\cdot}-\mu=0,i=1,2,\cdots,r,\\ H_{02}:\mu_{\cdot j}-\mu=0,j=1,2,\cdots,s.
H01:μi⋅−μ=0,i=1,2,⋯,r,H02:μ⋅j−μ=0,j=1,2,⋯,s.
其中,
μ
i
⋅
=
1
s
∑
j
=
1
s
μ
i
j
,
i
=
1
,
2
,
⋯
,
r
\mu_{i\cdot}=\frac{1}{s}\sum\limits_{j=1}^s\mu_{ij}, i=1,2,\cdots,r
μi⋅=s1j=1∑sμij,i=1,2,⋯,r,
μ
⋅
j
=
∑
i
=
1
r
μ
i
j
,
j
=
1
,
2
,
⋯
,
s
\mu_{\cdot j}=\sum\limits_{i=1}^r\mu_{ij},j=1,2,\cdots,s
μ⋅j=i=1∑rμij,j=1,2,⋯,s,
μ
=
1
r
s
∑
i
=
1
r
∑
j
=
1
s
μ
i
j
\mu=\frac{1}{rs}\sum\limits_{i=1}^{r}\sum\limits_{j=1}^{s}\mu_{ij}
μ=rs1i=1∑rj=1∑sμij。
下列代码定义计算双因素无重复试验方差分析的函数。
def dfeVarAnal1(X, alpha):
r,s=X.shape #模型数据结构
Xi_bar=X.mean(axis=1).reshape(r, 1) #A因素样本均值
Xj_bar=X.mean(axis=0).reshape(1, s) #B因素样本均值
Xt_bar=X.mean() #样本总均值
ST=((X-Xt_bar)**2).sum() #总变差
SA=s*((Xi_bar-Xt_bar)**2).sum() #A效应平方和
SB=r*((Xj_bar-Xt_bar)**2).sum() #B效应平方和
SE=ST-SA-SB #误差平方和
F1=(s-1)*SA/SE #H01检验统计量值
accept1=ftestR(F1, r-1, (r-1)*(s-1), alpha) #检验H01
F2=(r-1)*SB/SE #H02检验统计量值
accept2=ftestR(F2, s-1, (r-1)*(s-1), alpha) #检验H02
return (accept1, accept2)
函数dfeVarAnal1的参数X表示双因素无重复试验方差分析的数据模型
X
X
X,alpha表示显著水平
α
\alpha
α。第2行计算数据模型的结构行数s,列数t。第3行计算因素A的各个水平对应的样本均值
(
X
‾
1
⋅
,
X
‾
2
⋅
,
⋯
,
X
‾
r
⋅
)
T
(\overline{X}_{1\cdot},\overline{X}_{2\cdot},\cdots,\overline{X}_{r\cdot})^T
(X1⋅,X2⋅,⋯,Xr⋅)T,第4行计算因素B各水平对应的样本均值
(
X
‾
⋅
1
,
X
‾
⋅
2
,
⋯
,
X
‾
⋅
s
)
(\overline{X}_{\cdot1},\overline{X}_{\cdot2},\cdots,\overline{X}_{\cdot s})
(X⋅1,X⋅2,⋯,X⋅s),第5行计算样本总均值
X
‾
\overline{X}
X,第6~9行分别计算
S
T
S_T
ST,
S
A
S_A
SA,
S
B
S_B
SB和
S
E
S_E
SE。第10行计算假设
H
01
H_{01}
H01的检验统计量值
S
A
/
(
r
−
1
)
S
E
/
(
r
−
1
)
(
s
−
1
)
\frac{S_A/(r-1)}{S_E/(r-1)(s-1)}
SE/(r−1)(s−1)SA/(r−1)~
F
(
r
−
1
,
(
r
−
1
)
(
s
−
1
)
)
F(r-1,(r-1)(s-1))
F(r−1,(r−1)(s−1)),第11行调用函数ftestR计算
H
01
H_{01}
H01的右侧检验。第12行计算
H
02
H_{02}
H02的检验统计量
S
B
/
(
s
−
1
)
S
E
/
(
r
−
1
)
(
s
−
1
)
\frac{S_B/(s-1)}{S_E/(r-1)(s-1)}
SE/(r−1)(s−1)SB/(s−1)~
F
(
s
−
1
,
(
r
−
1
)
(
s
−
1
)
)
F(s-1,(r-1)(s-1))
F(s−1,(r−1)(s−1)),第13行计算
H
02
H_{02}
H02的右侧检验。
例1 在四个不同时间,五个不同地点测得空气中的颗粒状物含量(
m
g
/
m
3
mg/m^3
mg/m3)如下
地点 B 1 B_1 B1 | 地点 B 2 B_2 B2 | 地点 B 3 B_3 B3 | 地点 B 4 B_4 B4 | 地点 B 5 B_5 B5 | |
---|---|---|---|---|---|
时间 A 1 A_1 A1 | 76 | 67 | 81 | 56 | 51 |
时间 A 2 A_2 A2 | 82 | 69 | 96 | 59 | 70 |
时间 A 3 A_3 A3 | 68 | 59 | 67 | 54 | 42 |
时间 A 4 A_4 A4 | 63 | 56 | 64 | 58 | 37 |
假定在第
i
i
i个时间,第
j
j
j个地点空气中颗粒物含量服从
N
(
μ
i
j
,
σ
2
)
N(\mu_{ij},\sigma^2)
N(μij,σ2),
1
≤
i
≤
4
,
1
≤
j
≤
5
1\leq i\leq4,1\leq j\leq5
1≤i≤4,1≤j≤5。试在显著水平
α
=
0.05
\alpha=0.05
α=0.05下检验:在不同时间下颗粒物含量的均值有无显著差异,在不同地点下颗粒物含量的均值有无显著差异。
解: 按题意,需在显著水平
α
=
0
,
05
\alpha=0,05
α=0,05下检验
H
01
:
μ
i
⋅
−
μ
=
0
,
i
=
1
,
2
,
⋯
,
4
,
H
02
:
μ
⋅
j
−
μ
=
0
,
j
=
1
,
2
,
⋯
,
5.
H_{01}:\mu_{i\cdot}-\mu=0,i=1,2,\cdots,4,\\ H_{02}:\mu_{\cdot j}-\mu=0,j=1,2,\cdots,5.
H01:μi⋅−μ=0,i=1,2,⋯,4,H02:μ⋅j−μ=0,j=1,2,⋯,5.
下列代码完成本例计算。
import numpy as np #导入numpy
alpha=0.05 #显著水平
X=np.array([[76, 67, 81, 56, 51], #试验样本数据
[82, 69, 96, 59, 70],
[68, 59, 67, 54, 42],
[63, 56, 64, 58, 37]])
H0=dfeVarAnal1(X, alpha) #双因素无重复试验方差分析
print(H0)
运行程序,输出
(False, False)
表示拒绝假设
H
01
H_{01}
H01和
H
02
H_{02}
H02。即时间和地点都显著地影响空气中的颗粒物含量。
写博不易,敬请支持:
如果阅读本文于您有所获,敬请点赞、评论、收藏,谢谢大家的支持!
代码诚可贵,原理价更高。若为AI学,读正版书好。
返回《导引》