[统计学教程] 第八章方差分析与相关分析

最新推荐文章于 2022-05-15 20:05:58 发布

Gerry-Zhang

最新推荐文章于 2022-05-15 20:05:58 发布

阅读量6.4k

点赞数 2

文章标签： 2010 产品 c

本文链接：https://blog.csdn.net/ago52030/article/details/2828275

版权

学习进行时... 专栏收录该内容

35 篇文章 0 订阅

订阅专栏

导读：
　　

第八章方差分析与相关分析

一．方差分析

1．基本概念

方差分析的概念：比较组间方差是否可以用组内方差来进行解释，从而判断若干组样本是否来自同一总体。

方差分析，又称为ANOVA（Analysis Of Variance）分析。

方差分析可以一次检验多组样本，避免了t检验一次只能比较两组的缺陷。方差分析只能反映出各组样本中存在着差异，但具体是哪一组样本存在差异，无法进行判定。

考察下列例子：

某厂使用四种不同颜色对产品进行包装，经过在五个城市的试销，获得销售数据如下（单位：万盒），试分析包装颜色对于销售量是否有影响。

市场	红色	绿色	黄色	蓝色
北京	26.5	31.2	27.9	30.8
上海	28.7	28.3	25.1	29.6
广州	25.1	30.8	28.5	32.4
武汉	29.1	27.9	24.2	31.7
西安	27.2	29.6	26.5	32.8

观察数据的列平均值，列平均值的差异反映出不同颜色包装的销售业绩差异。此时，需要判断这种差异与同一颜色包装在不同城市间的差异相比，是否显著。如果不显著，则这种平均值的差异属于偶然差异。

市场	红色	绿色	黄色	蓝色
北京	26.5	31.2	27.9	30.8
上海	28.7	28.3	25.1	29.6
广州	25.1	30.8	28.5	32.4
武汉	29.1	27.9	24.2	31.7
西安	27.2	29.6	26.5	32.8
平均	27.32	29.56	26.44	31.46

2．方差分析原理

计算观察值的组间方差和组内方差，并计算两者的比值，如果该比值比较小，说明组间方差与组内方差比较接近，组间方差可以用组内方差来解释，从而说明组间差异不存在。

l 建立原假设“H0：各组平均数相等”

l 构造统计量“F＝组间方差／组内方差”

l 在计算组间方差时，使用自由度为（r-1），计算组内方差时，使用自由度为（n-r）。

l F满足第一自由度为（r-1），第二自由度为（n-r）的F分布。

l 查表，若F值大于0.05临界值，则拒绝原假设，认为各组平均数存在差异。

根据方差计算的原理，生成方差分析表如下：

其中：

组间离差平方和 SSA (Sum of Squares for factor A) ＝39.084

误差项离差平方和 SSE (Sum of Squares for Error) ＝76.8455

总离差平方和 SST (Sum of Squares for Total)＝115.9295

P-value值为0.000466，小于0.05，所以拒绝原假设。

F－crit是指0.05的边界值。

差异源	SS	df	MS	F	P-value	F crit
组间	76.8455	3	25.61517	10.4862	0.000466	3.238867
组内	39.084	16	2.44275
总计	115.9295	19

3．双因素方差分析

观察下列销售数据，欲了解包装方式和销售地区是否对于销售业绩有影响，涉及到双因素的方差分析。

此时需分别计算SSA、SSB与SSE之间的比值是否超过临界值。

其中SSE的自由度为（n-r-k）

		包装方式（因素A）
		包装A	包装B	包装C	包装D	包装E
销售地区（因素B）	地区1	20	12	20	10	14
	地区2	22	10	20	12	6
	地区3	24	14	18	18	10
	地区4	16	4	8	6	18
	地区5	26	22	16	20	10

计算方差分析表如下：

其中：

行差异（地区因素）对于销售无显著影响；

列差异（包装因素）对于销售有显著影响。

误差项SSE＝SST－SSA－SSB

差异源	SS	df	MS	F	P-value	F crit
行	199.36	4	49.84	2.303142	0.103195	3.006917
列	335.36	4	83.84	3.874307	0.021886	3.006917
误差	346.24	16	21.64
总计	880.96	24

二．相关分析

1．基本概念

相关关系：变量间非确定性的相互关联关系。表现为延着一条曲线两侧的一排点。

函数关系：变量间确定性的相互关联关系。表现为曲线上的点。

相关系数：Coefficient of correlation

观察下列数据：人均国民收入与人均消费金额之间存在着线性相关关系。

计算：r=0.9987，即人均国民收入与人均消费金额之间存在着强相关关系。

年份	人均国民收入	人均消费金额	年份	人均国民收入	人均消费金额
1981	393.8	249	1988	1068.8	643
1982	419.14	267	1989	1169.2	699
1983	460.86	289	1990	1250.7	713
1984	544.11	329	1991	1429.5	803
1985	668.29	406	1992	1725.9	947
1986	737.73	451	1993	2099.5	1148
1987	859.97	513

2．相关关系的检验：

相关系数接近1的程度除受相关性影响外，还受数据量n的影响。在n＝2时，相关系数确定为1。在相关程度相同的情况下，N越大，相关系数越小。

因此，在计算相关系数时，需要进行相关系数的检验，当r>临界值时，方可判断变量间存在相关关系。

相关系数只反映变量间的线性相关关系，当变量存在非线性的相关关系时，相关系数无法进行反映。

相关分析的临界值表

n-2	0.05	0.01	n-2	0.05	0.01	n-2	0.05	0.01
1	0.997	1.000	16	0.468	0.590	35	0.325	0.418
2	0.950	0.990	17	0.456	0.575	40	0.304	0.393
3	0.878	0.959	18	0.444	0.561	45	0.288	0.372
4	0.811	0.917	19	0.433	0.549	50	0.273	0.354
5	0.754	0.874	20	0.423	0.537	60	0.250	0.325
6	0.707	0.834	21	0.413	0.526	70	0.232	0.302
7	0.666	0.798	22	0.404	0.515	80	0.217	0.283
8	0.632	0.765	23	0.396	0.505	90	0.205	0.267
9	0.602	0.735	24	0.388	0.496	100	0.195	0.254
10	0.576	0.708	25	0.381	0.487	125	0.174	0.228
11	0.553	0.684	26	0.374	0.478	150	0.159	0.208
12	0.532	0.661	27	0.367	0.470	200	0.138	0.181
13	0.514	0.641	28	0.361	0.463	300	0.113	0.148
14	0.497	0.623	29	0.355	0.456	400	0.098	0.128
15	0.482	0.606	30	0.349	0.449	1000	0.062	0.081

3．等级相关

相关系数衡量两个定距以上样本的相关关系，但对于定序尺度，无法进行计算。

等级相关用于两个定序尺度测量的样本间相关程度的测定。

将两个样本按观察数据的顺序进行配对，分别计算每个数据的秩，将两组样本的秩分别记录为U和V。

如果两个测度完全一致，则U与V的差异应当为0。

计算D＝U－V的平方和，该值越大，表明相关性越差。

如下计算斯皮尔曼等级相关系数（Spearman coefficient of rank correlation）

考虑一个两评委对歌手打分的问题，分别按歌手得分的顺序计算U和V，计算R＝0.3212。

参赛歌手编号	得分U	得分V	D＝U－V	D×D
1	1	5	－4	16
2	2	3	－1	1
3	5	9	－4	16
4	9	6	3	9
5	4	8	－4	16
6	6	4	2	4
7	3	2	1	1
8	7	1	6	36
9	10	7	3	9
10	8	10	－2	4
合计				112

Gerry-Zhang

关注

2
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
[统计学教程] 第八章方差分析与相关分析

导读：　　第八章方差分析与相关分析一．方差分析1．基本概念方差分析的概念：比较组间方差是否可以用组内方差来进行解释，从而判断若干组样本是否来自同一总体。方差分析，又称为ANOVA（Analysis Of Variance）分析。方差分析可以一次检验多组样本，避免了t检验一次只能比较两组的缺陷。方差分析只能反映出各组样本中存在着差异，但具体是哪一组样本存在差异，无法进行
复制链接

扫一扫