本博文源于《商务统计》中的方差分析,旨在解决讲述一般的双因素方差分析。双因素方差分析是建立在单因素方差分析的基础上。
统计|如何简单理解单因素方差分析
双因素方差分析简要介绍
双因素方差分析目的:分析两个因素对实验结果的影响。
双因素方差分析种类:如果两个因素对实验结果的影响是相互独立的,分别判断单独因素对实验数据的影响,这时叫做无重复双因素方差分析。 如果有联系,那么叫做可重复双因素方差分析。
双因素方差分析基本假定
- 每个总体都服从正态分布:对于因素的每一个水平,其观察值是来自正态分布总体的简单随机样本。
- 各个总体的方差必须相同:对于各组观察数据,是从具有相同方差的总体中抽取的。
- 观察值是独立的
双因素方差分析的数据结构
无重复双因素方差分析的一般步骤
提出假设
对行因素提出的假设:
H
0
:
μ
1
=
μ
2
=
.
.
.
=
μ
i
=
.
.
.
.
=
μ
k
(
μ
i
为
第
i
个
水
平
的
均
值
)
H
1
:
μ
i
(
i
=
1
,
2
,
.
.
.
.
,
k
)
不
全
相
等
H_0:\mu_1=\mu_2=...=\mu_i=....=\mu_k(\mu_i为第i个水平的均值)\\ H1:\mu_i(i=1,2,....,k)不全相等
H0:μ1=μ2=...=μi=....=μk(μi为第i个水平的均值)H1:μi(i=1,2,....,k)不全相等
对列因素提出的假设:
H
0
:
μ
1
=
μ
2
=
.
.
.
=
μ
j
=
.
.
.
.
=
μ
r
(
μ
j
为
第
j
个
水
平
的
均
值
)
H
1
:
μ
j
(
j
=
1
,
2
,
.
.
.
.
,
r
)
不
全
相
等
H_0:\mu_1=\mu_2=...=\mu_j=....=\mu_r(\mu_j为第j个水平的均值)\\ H1:\mu_j(j=1,2,....,r)不全相等
H0:μ1=μ2=...=μj=....=μr(μj为第j个水平的均值)H1:μj(j=1,2,....,r)不全相等
计算平方和(SS)
跟单因素方差分析类似,也是需要计算一大堆的平方和:
总
误
差
平
方
和
S
S
T
=
∑
i
=
1
k
∑
j
=
1
r
(
x
i
j
−
x
ˉ
ˉ
)
2
行
因
素
误
差
平
方
和
S
S
R
=
∑
i
=
1
k
∑
j
=
1
r
(
x
i
⋅
−
x
ˉ
ˉ
)
2
列
因
素
误
差
平
方
和
S
S
C
=
∑
i
=
1
k
∑
j
=
1
r
(
x
⋅
j
−
x
ˉ
ˉ
)
2
随
机
误
差
项
平
方
和
S
S
E
=
∑
i
=
1
k
∑
j
=
1
r
(
x
i
j
−
x
i
⋅
ˉ
−
x
⋅
j
ˉ
+
x
ˉ
ˉ
)
2
总误差平方和 SST=\sum_{i=1}^k\sum_{j=1}^r(x_{ij}-\bar{\bar{x}})^2\\ 行因素误差平方和 SSR=\sum_{i=1}^k\sum_{j=1}^r(x_{i·}-\bar{\bar{x}})^2\\ 列因素误差平方和 SSC=\sum_{i=1}^k\sum_{j=1}^r(x_{·j}-\bar{\bar{x}})^2\\ 随机误差项平方和 SSE=\sum_{i=1}^k\sum_{j=1}^r(x_{ij}-\bar{x_{i·}}-\bar{x_{·j}}+\bar{\bar{x}})^2
总误差平方和SST=i=1∑kj=1∑r(xij−xˉˉ)2行因素误差平方和SSR=i=1∑kj=1∑r(xi⋅−xˉˉ)2列因素误差平方和SSC=i=1∑kj=1∑r(x⋅j−xˉˉ)2随机误差项平方和SSE=i=1∑kj=1∑r(xij−xi⋅ˉ−x⋅jˉ+xˉˉ)2
这里与单因素方差分析一样有一条关系:SST=SSR+SSC+SSE
计算均方(MS)
误差平方和除以相应的自由度
三个平方和的自由度分别是:
总
误
差
平
方
和
的
S
S
T
的
自
由
度
为
k
r
−
1
行
因
素
平
方
和
的
S
S
T
的
自
由
度
为
k
−
1
列
因
素
平
方
和
的
S
S
T
的
自
由
度
为
r
−
1
误
差
项
平
方
和
的
S
S
T
的
自
由
度
为
(
k
−
1
)
×
(
r
−
1
)
总误差平方和的SST的自由度为kr-1\\ 行因素平方和的SST的自由度为k-1\\ 列因素平方和的SST的自由度为r-1\\ 误差项平方和的SST的自由度为(k-1)\times{(r-1)}\\
总误差平方和的SST的自由度为kr−1行因素平方和的SST的自由度为k−1列因素平方和的SST的自由度为r−1误差项平方和的SST的自由度为(k−1)×(r−1)
行因素的均方,记为MSR,计算公式为:
M
S
R
=
S
S
R
k
−
1
MSR=\frac{SSR}{k-1}
MSR=k−1SSR
列因素的均方,记为MSC,计算公式为:
M
S
C
=
S
S
C
r
−
1
MSC=\frac{SSC}{r-1}
MSC=r−1SSC
误差项的均方,记为MSE,计算公式为:
M S E = S S E ( k − 1 ) ( r − 1 ) MSE=\frac{SSE}{(k-1)(r-1)} MSE=(k−1)(r−1)SSE
计算检验统计量
检验行因素的统计量
F
R
=
M
S
R
M
S
E
∼
F
(
k
−
1
,
(
k
−
1
)
(
r
−
1
)
)
F_R=\frac{MSR}{MSE}\sim{F(k-1,(k-1)(r-1))}
FR=MSEMSR∼F(k−1,(k−1)(r−1))
检验列因素的统计量
F
C
=
M
S
C
M
S
E
∼
F
(
r
−
1
,
(
k
−
1
)
(
r
−
1
)
)
F_C=\frac{MSC}{MSE}\sim{F(r-1,(k-1)(r-1))}
FC=MSEMSC∼F(r−1,(k−1)(r−1))
双因素方差分析表
统计决策
将统计量的值F与给定的显著性水平 α \alpha α的临界值 F α F_\alpha Fα进行比较,作出对原假设H_0的决策
- 根据给定的显著性水平 α \alpha α在F分布表中查找相应的临界值 F α F_\alpha Fα
- 若 F R > F α F_R\gt{F_\alpha} FR>Fα,拒绝原假设 H 0 H_0 H0,表明均值之间的差异是显著的,即所检验的行因素对观察值有显著影响。
- 若 F C > F α F_C\gt{F_{\alpha}} FC>Fα,拒绝原假设 H 0 H_0 H0,表明均值之间有显著差异,即所检验的列因素对观察值有显著影响.
可重复双因素方差分析的一般步骤
平方和的计算
x i j l 为 对 应 于 行 因 素 的 第 i 个 水 平 和 列 因 素 的 第 j 个 水 平 的 第 l 行 的 观 察 值 x i ⋅ ˉ 为 行 因 素 的 第 i 个 水 平 的 样 本 均 值 x ⋅ j ˉ 为 列 因 素 的 第 j 个 水 平 的 样 本 均 值 x i j ˉ 对 应 行 因 素 的 第 i 个 水 平 和 列 因 素 的 第 j 个 水 平 的 组 合 的 样 本 均 值 x ˉ ˉ 为 全 部 n 个 观 察 值 的 总 均 值 x_{ijl}为对应于行因素的第i个水平和列因素的第j个水平的\\ 第l行的观察值\\ \bar{x_{i·}}为行因素的第i个水平的样本均值\\ \bar{x_{·j}}为列因素的第j个水平的样本均值\\ \bar{x_{ij}}对应行因素的第i个水平和列因素的第j个水平的\\ 组合的样本均值\\ \bar{\bar{x}}为全部n个观察值的总均值 xijl为对应于行因素的第i个水平和列因素的第j个水平的第l行的观察值xi⋅ˉ为行因素的第i个水平的样本均值x⋅jˉ为列因素的第j个水平的样本均值xijˉ对应行因素的第i个水平和列因素的第j个水平的组合的样本均值xˉˉ为全部n个观察值的总均值
总
平
方
和
S
S
T
=
∑
i
=
1
k
∑
j
=
1
r
∑
l
=
1
m
(
x
i
j
l
−
x
ˉ
ˉ
)
2
行
变
量
平
方
和
S
S
R
=
r
m
∑
i
=
1
k
(
x
ˉ
i
⋅
−
x
ˉ
ˉ
)
2
列
变
量
平
方
和
S
S
C
=
k
m
∑
j
=
1
r
(
x
ˉ
⋅
j
−
x
ˉ
ˉ
)
2
交
互
用
平
方
和
:
S
S
R
C
=
m
∑
i
=
1
k
∑
j
=
1
r
(
x
ˉ
i
j
−
x
ˉ
i
⋅
−
x
ˉ
⋅
j
+
x
ˉ
ˉ
)
2
误
差
项
平
方
和
S
S
E
=
S
S
T
−
S
S
R
−
S
S
C
−
S
S
R
C
总平方和 SST=\sum_{i=1}^k\sum_{j=1}^r\sum_{l=1}^m(x_{ijl}-\bar{\bar{x}})^2\\ 行变量平方和 SSR=rm\sum_{i=1}^k(\bar{x}_{i·}-\bar{\bar{x}})^2\\ 列变量平方和 SSC=km\sum_{j=1}^r(\bar{x}_{·j}-\bar{\bar{x}})^2\\ 交互用平方和:SSRC=m\sum_{i=1}^k\sum_{j=1}^r(\bar{x}_{ij}-\bar{x}_{i·}-\bar{x}_{·j}+\bar{\bar{x}})^2\\ 误差项平方和 SSE=SST-SSR-SSC-SSRC
总平方和SST=i=1∑kj=1∑rl=1∑m(xijl−xˉˉ)2行变量平方和SSR=rmi=1∑k(xˉi⋅−xˉˉ)2列变量平方和SSC=kmj=1∑r(xˉ⋅j−xˉˉ)2交互用平方和:SSRC=mi=1∑kj=1∑r(xˉij−xˉi⋅−xˉ⋅j+xˉˉ)2误差项平方和SSE=SST−SSR−SSC−SSRC
这里与单因素方差分析一样有一条关系:SST=SSR+SSC+SSE+SSRC
可重复双因素方差分析表
一样的可以看临界值F和F理论值大小,也可以看P值
例子:品牌与地区是否影响彩电销售(单因素)
提出假设
- 对品牌因素提出的假设为
H 0 : μ 1 = μ 2 = μ 3 = μ 4 ( 品 牌 对 销 售 量 无 显 著 影 响 ) H 1 : μ i ( i = 1 , 2 , . . . , 4 ) 不 全 相 等 ( 有 显 著 影 响 ) H_0:\mu_1=\mu_2=\mu_3=\mu_4(品牌对销售量无显著影响)\\ H_1:\mu_i(i=1,2,...,4)不全相等(有显著影响) H0:μ1=μ2=μ3=μ4(品牌对销售量无显著影响)H1:μi(i=1,2,...,4)不全相等(有显著影响) - 对地区因素提出的假设为
H 0 : μ 1 = μ 2 = μ 3 = μ 4 = μ 5 ( 地 区 对 销 售 量 无 显 著 影 响 ) H 1 : μ j ( j = 1 , 2 , . . . , 5 ) 不 全 相 等 ( 有 显 著 影 响 ) H_0:\mu_1=\mu_2=\mu_3=\mu_4=\mu_5(地区对销售量无显著影响)\\ H_1:\mu_j(j=1,2,...,5)不全相等(有显著影响) H0:μ1=μ2=μ3=μ4=μ5(地区对销售量无显著影响)H1:μj(j=1,2,...,5)不全相等(有显著影响)
检验统计量
通过相应的统计软件进行绘制输出,
- 先比较 F 与 F c r i t F与F crit F与Fcrit的值大小
- 或者比较P-value跟0.05对比
统计决策
9.46E-05小于0.05说明可以拒绝原假设,即品牌跟销量有显著性差异,0.14367>0.05,不拒绝原假设,即地区对销量没有显著性差异。数学结论如下:
F
R
=
18.10777
>
F
α
=
3.4903
,
拒
绝
原
假
设
H
0
,
说
明
彩
电
的
品
牌
对
销
售
量
有
显
著
影
响
。
F
C
=
2.100846
<
F
α
=
3.2592
,
不
拒
绝
原
假
设
H
0
,
无
证
据
表
明
销
售
地
区
对
彩
电
的
销
售
量
有
显
著
影
响
F_R=18.10777\gt{F_\alpha}=3.4903,拒绝原假设H_0,说明彩电的品牌对销售量有显著影响。\\ F_C=2.100846\lt{F_\alpha}=3.2592,不拒绝原假设H_0,无证据表明销售地区对彩电的销售量有显著影响
FR=18.10777>Fα=3.4903,拒绝原假设H0,说明彩电的品牌对销售量有显著影响。FC=2.100846<Fα=3.2592,不拒绝原假设H0,无证据表明销售地区对彩电的销售量有显著影响