概述
通过对数据误差来源的分析检验各总体的均值是否相等来判断分类型的自变量对数值型的因变量是否有显著影响。
因素:即因子,所要检验的对象
水平:又称处理,即因素的不同表现
观测值:每个因子水平下得到的样本数据
仅有一个因素的方差分析称为单因素方差分析,包含两个因素的方差分析称为双因素方差分析,两个以上的称为多因素方差分析。
例题
消费者与产品生产者、销售者或服务的提供者之间经常发生纠纷。为了对几个行业的服务质量进行评价,消费者协会在零售业,旅游业,航空公司,家电制造业分别抽取了不同的企业作为样本。一共抽取了23家企业,统计出消费者对总共23家企业投诉的次数,结果如下表所示:
样本 | 零售业 | 旅游业 | 航空公司 | 家电制造业 |
---|---|---|---|---|
1 | 57 | 68 | 31 | 44 |
2 | 66 | 39 | 49 | 51 |
3 | 49 | 29 | 21 | 65 |
4 | 40 | 45 | 34 | 77 |
5 | 34 | 56 | 40 | 58 |
消费者协会想知道这几个行业之间的服务质量是否有显著差异,实际是是判断行业对被投诉次数是否有显著影响,即要检验这四个行业被投诉次数的均值是否相等。
如果均值相等,则意味这服务质量没有显著性差异。
如果均值不全相等,则意味着行业对被投诉次数是有影响的,服务质量是有显著性差异的。
回顾方差分析的定义:是对数据误差来源的分析,来判断均值是否相等。所以在进行方差分析之前,需要考虑数据误差的来源
误差分解
组内误差:由于抽样的随机性所造成的随机误差,即来自水平内部的数据误差,反映一个样本内部数据的离散程度,只含有随机误差。例如:总体数据分布有[40,41,100,42]等,抽样时刚好抽到[40,100]。
组间误差:来自不同水平之间的误差,这种误差包括抽样本身的误差和行业本身系统性因素造成的系统误差。例如:可能航空公司的投诉次数本身就比旅游业低。
对于方差分析来说:数据的误差时用平方和表示的。即:
S
S
T
=
S
S
E
+
S
S
A
SST = SSE + SSA
SST=SSE+SSA
总平方和(SST):反应全部数据误差大小的平方和,反应全部观测值的离散状况。
组内平方和(SSE):反应组内误差大小的平方和,也称误差平方和或残差平方和,反映的是每个样本内各观测值的离散状况。
组间平方和(SSA):反应组间误差大小的平方和,也称因素平方和,反映样本均值的差异。
均方:各平方和除以他们所对应的自由度,也称为方差。
此时:
若原假设成立,组间误差中将只包含随机误差,组间均方与组内均方的数值就会很接近,比值就会接近于1。
若原假设不成立,组间误差中将既包含随机误差又包含系统误差,组间均方会大于组内均方,他们之间的比值将大于1。
当比值大于某种程度(
α
\alpha
α)时,就可以说不同水平之间存在显著差异。
这个比值服从分子自由度为n-1,分布自由度为n-k的F分布
F
=
M
S
A
M
S
E
∼
F
(
k
−
1
,
n
−
k
)
F = \frac{MSA}{MSE} \sim F(k-1,n-k)
F=MSEMSA∼F(k−1,n−k)
解题
上题中,因素是行业,水平是不同行业的不同表现,观测值是具体的被投诉次数。
涉及两个变量:
一个是分类型自变量,如行业
一个是数值型自变量,如被投诉次数
方差分析就是要研究行业对被投诉次数是否有显著影响
步骤
步骤和假设检验中的类似,区别是在于构建统计量的异同。
第一步:建立原假设和备择假设
分别使用ABCD来代替零售业,旅游业,航空公司,家电制造业。
H
0
:
μ
A
=
μ
B
=
μ
C
=
μ
D
H_0 : \mu_A = \mu_B = \mu_C = \mu_D
H0:μA=μB=μC=μD
H
1
:
四
个
行
业
的
投
诉
均
值
不
全
相
等
H_1 : 四个行业的投诉均值不全相等
H1:四个行业的投诉均值不全相等
第二步:选择合适的显著性水平
默认为
α
=
0.05
\alpha=0.05
α=0.05
第三步:选择合适的抽样分布及其统计量
方差分析适用的都是F分布和F统计量
第四步:从总体中抽取随机样本,计算P值
1.计算每种行业的样本均值(
X
A
‾
,
X
B
‾
,
X
C
‾
,
X
D
‾
\overline{X_A},\overline{X_B},\overline{X_C},\overline{X_D}
XA,XB,XC,XD),以及所有样本的均值
X
Z
‾
\overline{X_Z}
XZ
X
A
‾
=
57
+
66
+
49
+
40
+
34
5
=
49.2
\overline{X_A} = \frac{57+66+49+40+34}{5} = 49.2
XA=557+66+49+40+34=49.2
X
B
‾
=
47.4
\overline{X_B} = 47.4
XB=47.4
X
C
‾
=
35
\overline{X_C} = 35
XC=35
X
D
‾
=
59
\overline{X_D} = 59
XD=59
X
Z
‾
=
47.65
\overline{X_Z} = 47.65
XZ=47.65
2.计算组间方差MSA、组内方差MSE以及F值
组间平方和:
S
S
A
=
∑
i
=
1
k
n
i
(
X
i
‾
−
X
Z
‾
)
2
SSA = \displaystyle \sum^{k}_{i = 1}{n_i(\overline{X_i} - \overline{X_Z} )^2}
SSA=i=1∑kni(Xi−XZ)2
S
S
A
=
1456.55
SSA = 1456.55
SSA=1456.55
组内平方和:
S
S
E
=
∑
i
=
1
k
∑
j
=
1
n
i
(
X
i
j
−
X
i
‾
)
2
SSE = \displaystyle \sum^{k}_{i = 1} \sum^{n_i}_{j= 1}{(X_{ij} - \overline{X_i})^2}
SSE=i=1∑kj=1∑ni(Xij−Xi)2
S
S
E
=
2656
SSE = 2656
SSE=2656
M
S
A
=
S
S
A
k
−
1
=
1456.55
/
(
4
−
1
)
=
485.5
MSA = \frac{SSA}{k-1} = 1456.55/(4-1) = 485.5
MSA=k−1SSA=1456.55/(4−1)=485.5
M
S
E
=
S
S
A
n
−
k
=
2656
/
(
20
−
4
)
=
166
MSE = \frac{SSA}{n-k} = 2656/(20-4) = 166
MSE=n−kSSA=2656/(20−4)=166
F
=
M
S
A
M
S
E
=
485.4
/
166
=
2.92
,
自
由
度
为
F
(
3
,
16
)
F = \frac{MSA}{MSE} = 485.4/166 = 2.92,自由度为F(3,16)
F=MSEMSA=485.4/166=2.92,自由度为F(3,16)
3.查询F分布表
α
=
0.05
\alpha=0.05
α=0.05时,分布表如下:
第五步:进行判别,得出结论
可以看到,在自由度(3,16)时,置信度为95%的值为3.24,2.92<3.24,所以我们接受原假设的概率为95%,所以接受原假设。所以行业对被投诉次数没有显著影响。