第八章 方差分析与相关分析
一.方差分析
1.基本概念
方差分析的概念:比较组间方差是否可以用组内方差来进行解释,从而判断若干组样本是否来自同一总体。
方差分析,又称为ANOVA(Analysis Of Variance)分析。
方差分析可以一次检验多组样本,避免了t检验一次只能比较两组的缺陷。方差分析只能反映出各组样本中存在着差异,但具体是哪一组样本存在差异,无法进行判定。
考察下列例子:
某厂使用四种不同颜色对产品进行包装,经过在五个城市的试销,获得销售数据如下(单位:万盒),试分析包装颜色对于销售量是否有影响。
市场 | 红色 | 绿色 | 黄色 | 蓝色 |
北京 | 26.5 | 31.2 | 27.9 | 30.8 |
上海 | 28.7 | 28.3 | 25.1 | 29.6 |
广州 | 25.1 | 30.8 | 28.5 | 32.4 |
武汉 | 29.1 | 27.9 | 24.2 | 31.7 |
西安 | 27.2 | 29.6 | 26.5 | 32.8 |
观察数据的列平均值,列平均值的差异反映出不同颜色包装的销售业绩差异。此时,需要判断这种差异与同一颜色包装在不同城市间的差异相比,是否显著。如果不显著,则这种平均值的差异属于偶然差异。
市场 | 红色 | 绿色 | 黄色 | 蓝色 |
北京 | 26.5 | 31.2 | 27.9 | 30.8 |
上海 | 28.7 | 28.3 | 25.1 | 29.6 |
广州 | 25.1 | 30.8 | 28.5 | 32.4 |
武汉 | 29.1 | 27.9 | 24.2 | 31.7 |
西安 | 27.2 | 29.6 | 26.5 | 32.8 |
平均 | 27.32 | 29.56 | 26.44 | 31.46 |
2.方差分析原理
计算观察值的组间方差和组内方差,并计算两者的比值,如果该比值比较小,说明组间方差与组内方差比较接近,组间方差可以用组内方差来解释,从而说明组间差异不存在。
l 建立原假设“H0:各组平均数相等”
l 构造统计量“F=组间方差/组内方差”
l 在计算组间方差时,使用自由度为(r-1),计算组内方差时,使用自由度为(n-r)。
l F满足第一自由度为(r-1),第二自由度为(n-r)的F分布。
l 查表,若F值大于0.05临界值,则拒绝原假设,认为各组平均数存在差异。
根据方差计算的原理,生成方差分析表如下:
其中:
组间离差平方和 SSA (Sum of Squares for factor A) =39.084
误差项离差平方和 SSE (Sum of Squares for Error) =76.8455
总离差平方和 SST (Sum of Squares for Total)=115.9295
P-value值为0.000466,小于0.05,所以拒绝原假设。
F-crit是指0.05的边界值。
差异源 | SS | df | MS | F | P-value | F crit |
组间 | 76.8455 | 3 | 25.61517 | 10.4862 | 0.000466 | 3.238867 |
组内 | 39.084 | 16 | 2.44275 |
|
|
|
总计 | 115.9295 | 19 |
|
|
|
|
3.双因素方差分析
观察下列销售数据,欲了解包装方式和销售地区是否对于销售业绩有影响,涉及到双因素的方差分析。
此时需分别计算SSA、SSB与SSE之间的比值是否超过临界值。
其中SSE的自由度为 (n-r-k)
| 包装方式(因素A) | |||||
包装A | 包装B | 包装C | 包装D | 包装E | ||
销售地区(因素B) | 地区1 | 20 | 12 | 20 | 10 | 14 |
地区2 | 22 | 10 | 20 | 12 | 6 | |
地区3 | 24 | 14 | 18 | 18 | 10 | |
地区4 | 16 | 4 | 8 | 6 | 18 | |
地区5 | 26 | 22 | 16 | 20 | 10 |
计算方差分析表如下:
其中:
行差异(地区因素)对于销售无显著影响;
列差异(包装因素)对于销售有显著影响。
误差项SSE=SST-SSA-SSB
差异源 | SS | df | MS | F | P-value | F crit |
行 | 199.36 | 4 | 49.84 | 2.303142 | 0.103195 | 3.006917 |
列 | 335.36 | 4 | 83.84 | 3.874307 | 0.021886 | 3.006917 |
误差 | 346.24 | 16 | 21.64 |
|
|
|
总计 | 880.96 | 24 |
|
|
|
|
二.相关分析
1.基本概念
相关关系:变量间非确定性的相互关联关系。表现为延着一条曲线两侧的一排点。
函数关系:变量间确定性的相互关联关系。表现为曲线上的点。
相关系数:Coefficient of correlation
观察下列数据:人均国民收入与人均消费金额之间存在着线性相关关系。
计算:r=0.9987,即人均国民收入与人均消费金额之间存在着强相关关系。
年份 | 人均国民收入 | 人均消费金额 | 年份 | 人均国民收入 | 人均消费金额 |
1981 | 393.8 | 249 | 1988 | 1068.8 | 643 |
1982 | 419.14 | 267 | 1989 | 1169.2 | 699 |
1983 | 460.86 | 289 | 1990 | 1250.7 | 713 |
1984 | 544.11 | 329 | 1991 | 1429.5 | 803 |
1985 | 668.29 | 406 | 1992 | 1725.9 | 947 |
1986 | 737.73 | 451 | 1993 | 2099.5 | 1148 |
1987 | 859.97 | 513 |
|
|
|
2.相关关系的检验:
相关系数接近1的程度除受相关性影响外,还受数据量n的影响。在n=2时,相关系数确定为1。在相关程度相同的情况下,N越大,相关系数越小。
因此,在计算相关系数时,需要进行相关系数的检验,当r>临界值时,方可判断变量间存在相关关系。
相关系数只反映变量间的线性相关关系,当变量存在非线性的相关关系时,相关系数无法进行反映。
相关分析的临界值表
n-2 | 0.05 | 0.01 | n-2 | 0.05 | 0.01 | n-2 | 0.05 | 0.01 |
1 | 0.997 | 1.000 | 16 | 0.468 | 0.590 | 35 | 0.325 | 0.418 |
2 | 0.950 | 0.990 | 17 | 0.456 | 0.575 | 40 | 0.304 | 0.393 |
3 | 0.878 | 0.959 | 18 | 0.444 | 0.561 | 45 | 0.288 | 0.372 |
4 | 0.811 | 0.917 | 19 | 0.433 | 0.549 | 50 | 0.273 | 0.354 |
5 | 0.754 | 0.874 | 20 | 0.423 | 0.537 | 60 | 0.250 | 0.325 |
6 | 0.707 | 0.834 | 21 | 0.413 | 0.526 | 70 | 0.232 | 0.302 |
7 | 0.666 | 0.798 | 22 | 0.404 | 0.515 | 80 | 0.217 | 0.283 |
8 | 0.632 | 0.765 | 23 | 0.396 | 0.505 | 90 | 0.205 | 0.267 |
9 | 0.602 | 0.735 | 24 | 0.388 | 0.496 | 100 | 0.195 | 0.254 |
10 | 0.576 | 0.708 | 25 | 0.381 | 0.487 | 125 | 0.174 | 0.228 |
11 | 0.553 | 0.684 | 26 | 0.374 | 0.478 | 150 | 0.159 | 0.208 |
12 | 0.532 | 0.661 | 27 | 0.367 | 0.470 | 200 | 0.138 | 0.181 |
13 | 0.514 | 0.641 | 28 | 0.361 | 0.463 | 300 | 0.113 | 0.148 |
14 | 0.497 | 0.623 | 29 | 0.355 | 0.456 | 400 | 0.098 | 0.128 |
15 | 0.482 | 0.606 | 30 | 0.349 | 0.449 | 1000 | 0.062 | 0.081 |
3.等级相关
相关系数衡量两个定距以上样本的相关关系,但对于定序尺度,无法进行计算。
等级相关用于两个定序尺度测量的样本间相关程度的测定。
将两个样本按观察数据的顺序进行配对,分别计算每个数据的秩,将两组样本的秩分别记录为U和V。
如果两个测度完全一致,则U与V的差异应当为0。
计算D=U-V的平方和,该值越大,表明相关性越差。
如下计算斯皮尔曼等级相关系数(Spearman coefficient of rank correlation)
考虑一个两评委对歌手打分的问题,分别按歌手得分的顺序计算U和V,计算R=0.3212。
参赛歌手编号 | 得分U | 得分V | D=U-V | D×D |
1 | 1 | 5 | -4 | 16 |
2 | 2 | 3 | -1 | 1 |
3 | 5 | 9 | -4 | 16 |
4 | 9 | 6 | 3 | 9 |
5 | 4 | 8 | -4 | 16 |
6 | 6 | 4 | 2 | 4 |
7 | 3 | 2 | 1 | 1 |
8 | 7 | 1 | 6 | 36 |
9 | 10 | 7 | 3 | 9 |
10 | 8 | 10 | -2 | 4 |
合计 |
|
|
| 112 |