- 单因素方差分析
- 数据结构
1、A表示因素(或因子)
2、k表示因素下的水平数,比如A因素中有k个水平:A1,A2,...Ak
3、观察值用Xij表示第i个水平(总体)的第j个观测值,如X43,表示第4个水平下下的第3个观测值
- 分析步骤
- 提出假设
H0 : μ1 = μ2 =...=μ..= μk 自变量对因变量没有显著影响
H1 : μi(i=1,2,...k)不全相等 自变量对因变量有显著影响
说明
1、如果拒绝H0,意味这自变量对因变量有显著的影响,
2、拒绝H0,只是表明至少有两个总体均值不想等,并不意味这所有的都不相等
3、如果接受H0,意味着没有充分证据证明自变量对因变量有显著的影响,(换句话说,没法证明自变量对因变量有显著影响;自变量对因变量没有显著影响)
- 构造并计算统计量
![26000418_lMkN.png](https://static.oschina.net/uploads/img/201707/26000418_lMkN.png)
ni表示:i水平(总体)的样本量,Xij表示为第i个总体的第j个观测值
2、计算全部观测值的总体均值
全部观测值的总和除以观测值的总个数的结果
![26000418_HiRz.png](https://static.oschina.net/uploads/img/201707/26000418_HiRz.png)
n=n1+n2...nk,全部的观测值总量
3、计算各误差的平方和
a、总平方和
全部观测值与总体均值
的误差平方和,反映
全部观测值的离散状况
![26000418_2Tm1.png](https://static.oschina.net/uploads/img/201707/26000418_2Tm1.png)
![26000418_Si1B.png](https://static.oschina.net/uploads/img/201707/26000418_Si1B.png)
b、组间平方和
各组均值
(i=1,2,..k
)与总体均值
的误差平方和,反映样本均值之间的差异程度,又称因素平方和
![26000418_Mv6t.png](https://static.oschina.net/uploads/img/201707/26000418_Mv6t.png)
![26000418_Pbhl.png](https://static.oschina.net/uploads/img/201707/26000418_Pbhl.png)
![26000418_MfEK.png](https://static.oschina.net/uploads/img/201707/26000418_MfEK.png)
c、组内平方和
各水平或者组各样本与其组均值的误差平方和,反映了组内每个样本各观测值的离散状况,同时也反映了随机误差的大小
![26000418_sXfi.png](https://static.oschina.net/uploads/img/201707/26000418_sXfi.png)
说明
a、SSA是随机误差和系统误差大小的度量,反映了自变量(行业)对因变量(被投诉次数)的影响,也称为自变量效应或者因子效应
b、SSE是对随机误差大小的度量,也被称为
残差变量,它所引起的误差也称为
残差效应
c、SST是全部数据总误差程度的度量,它反映了自变量和残差变量的共同影响,因此
它等于自变量效应加残差效应
4、计算统计量
各误差平方和的大小与观测值的多少有关,为了消除观测值对误差平方和大小的影响,需要将其平均,也就是用个平方和除以他们所对应的自由度,
这一结果称为均方,也称方差
SST的自由度为 n-1,其中n为全部观测值的个数
SSA的自由度为k-1,k为水平(总体)数
SSE的自由度n-k
只要比较组间均方和组内均方的差异即可,所以计算
SSA的均方:组件均方或者组间方差
MSA
![26000418_2lap.png](https://static.oschina.net/uploads/img/201707/26000418_2lap.png)
SSE的均方:组内均方或者组内方差 MSE
![26000418_ot5Z.png](https://static.oschina.net/uploads/img/201707/26000418_ot5Z.png)
将MSA/MSE得到所需要的检验统计量F,当H0为真时,二者的比值服从分子自由度为k-1、分母自由度为n-k的F分布
![26000418_nrVr.png](https://static.oschina.net/uploads/img/201707/26000418_nrVr.png)
- 统计决策
根据给定的显著水平a,在F分布表中查找与分子自由度df1 = k -1、分母自由度df2 = n-k相应的临界值Fa(k-1,n-k)
1、F > Fa,则拒绝原假设 H0: μ1=μ2=...=μk,说明
自变量对因变量
有显著影响
2、F < Fa,则接受原假设 H0,说明没有证据表明有显著影响
也可以用 P 值做决策
当 P < a (显著水平如0.05),则拒绝H0,相反则接受 H0
注:
当检验的因素只有两个水平时,单因素方差分析与两个样本均值之差的t检验的结果完全相同,因为当因素的水平k=2时,检验的t统计量与F统计量关系为:F = t^2