数学模型
把水平
Ai
A
i
下的试验结果
xi1,xi2,⋯,xini
x
i
1
,
x
i
2
,
⋯
,
x
i
n
i
看成来自第
i
i
个正态总体的样本观察值,其中,
μ
μ
,
σ2
σ
2
未知,并且每个总体
Xi
X
i
都相互独立,考虑线性模型
其中, ϵi,j∼ N(0,σ2) ϵ i , j ∼ N ( 0 , σ 2 ) 相互独立, μi μ i 为第 i i 个总体的均值,为相应的试验误差。
比较因素
A
A
的个水平的差异归结为比较这
r
r
个总体均值,即检验假设:
记, μ=1n∑i=1nniμi,n=∑i=1nni,αi=μi−μ μ = 1 n ∑ i = 1 n n i μ i , n = ∑ i = 1 n n i , α i = μ i − μ i,其中 μ μ 表示总和的均值, αi α i 为水平 Ai A i 对指标的效应,不难验证 ∑i=1rniαi=0 ∑ i = 1 r n i α i = 0 。
模型可以等价表示为
称模型 (2) ( 2 ) 为单因素方差分析数学模型,它是一个线性模型。
方差分析
式
(2)
(
2
)
等价于:
如果 H0 H 0 被拒绝,则说明因素 A A 各水平的效应之间有显著的差异,否则差异不明显。
以下导出的检验统计量,方差分析法是建立在平方和分解和自由度分解的基础上的,考虑统计量:
称 ST S T 为总离差平方和(或称总变差),它是所有数据 xij x i j 与总平均值 x¯¯¯ x ¯ 的差的平方和,它描绘了所有数据的离散程度,可以证明如下平方和分解公式:
其中:
SE S E 表示随机误差的影响,这是因为对于固定的 i i 来讲,观测值是来自同一个正态总体 N(μi,σ2) N ( μ i , σ 2 ) 的样本,因此,他们之间的差异是由于随机误差所导致的,而 ∑j=1ni(xij−x¯¯¯i⋅)2 ∑ j = 1 n i ( x i j − x ¯ i ⋅ ) 2 是这 ni n i 个数据的变动平方和,正是它们之间的差异大小的度量,将 r r 组这样的变动平方和相加,就得到了,通常成 SE S E 为误差平方和或者组内平方和。
SA S A 表示在水平 Ai A i 下样本均值与总均值之间的差异之后,它反映了 r r 个总体均值之间的差异,因为是第 i i 个总体的样本均值,它是的估计,因此 r r 个总体均值之间的差异越大,这些样本均值 x¯¯¯1,x¯¯¯2,⋯,x¯¯¯r x ¯ 1 , x ¯ 2 , ⋯ , x ¯ r 之间的差异越大,平方和 ∑i=1r∑j=1ni(xi⋅−x¯¯¯)2 ∑ i = 1 r ∑ j = 1 n i ( x i ⋅ − x ¯ ) 2 正是这种差异大小的度量,这里 ni n i 反映了第 i i 个总体的 样本大小在平方和中的作用,称 SA S A 为因素 A A 的效应平方和或组间平方和。
式表明,总平方和可按其来源分为两个部分,一部分是误差平方和,它是由随机误差引起的,另一部分是因素的效应平方和,它是因素各水平的差异引起的。
式表明,总平方和 ST S T 可按其来源分为两个部分,一部分是误差平方和 SE S E ,它是由随机误差引起的,另一部分是因素 A A 的效应平方和,它是因素 A A 各水平的差异引起的。
由模型假设,经过统计分析得到 E(SE)=(n−r)σ2 E ( S E ) = ( n − r ) σ 2 ,即 SEn−r S E n − r 是 σ2 σ 2 的一个无偏估计,且 SEσ2∼χ2(n−r) S E σ 2 ∼ χ 2 ( n − r ) 。
如果假设
H0
H
0
成立,则有
E(SA)=(r−1)σ2
E
(
S
A
)
=
(
r
−
1
)
σ
2
,即
SAr−1
S
A
r
−
1
也是
σ2
σ
2
的一个无偏估计,且
SEσ2∼χ2(r−1)
S
E
σ
2
∼
χ
2
(
r
−
1
)
,并且
SE
S
E
和
SA
S
A
独立,因此,当假设
H0
H
0
成立是,有:
于是 F F 可以作为的检验统计量,对于给定的显著性水平 α α ,用 Fα(r−1,n−r) F α ( r − 1 , n − r ) 表示 F F 分布的上分位点,如果 F>Fα(r−1,n−r) F > F α ( r − 1 , n − r ) ,则拒绝原假设,认为因素 A A 的个水平有显著差异,可以通过计算 p p 值的方法来决定是接受还是拒绝,其中 p p 值为,它表示的是服从自由度为 (r−1,n−r) ( r − 1 , n − r ) 的 F F 分布的随机变量取值大于的概率,显然, p p 值小于等价于 F>Fα(r−1,n−r) F > F α ( r − 1 , n − r ) ,表示在显著性水平 α α 下的小概率事件发生了,这意味着应该拒绝原假设 H0 H 0 ,当 p p 值大于,则不能拒绝原假设,所以应该接受原假设 H0 H 0 。
单因素方差分分析表为:
