[统计学教程] 第八章 方差分析与相关分析

导读:
  

第八章  方差分析与相关分析


 


一.方差分析


1.基本概念


方差分析的概念:比较组间方差是否可以用组内方差来进行解释,从而判断若干组样本是否来自同一总体。


方差分析,又称为ANOVA(Analysis Of Variance)分析。


方差分析可以一次检验多组样本,避免了t检验一次只能比较两组的缺陷。方差分析只能反映出各组样本中存在着差异,但具体是哪一组样本存在差异,无法进行判定。


 


考察下列例子:


    某厂使用四种不同颜色对产品进行包装,经过在五个城市的试销,获得销售数据如下(单位:万盒),试分析包装颜色对于销售量是否有影响。









































市场


红色


绿色


黄色


蓝色


北京


26.5


31.2


27.9


30.8


上海


28.7


28.3


25.1


29.6


广州


25.1


30.8


28.5


32.4


武汉


29.1


27.9


24.2


31.7


西安


27.2


29.6


26.5


32.8


 


观察数据的列平均值,列平均值的差异反映出不同颜色包装的销售业绩差异。此时,需要判断这种差异与同一颜色包装在不同城市间的差异相比,是否显著。如果不显著,则这种平均值的差异属于偶然差异。


 















































市场


红色


绿色


黄色


蓝色


北京


26.5


31.2


27.9


30.8


上海


28.7


28.3


25.1


29.6


广州


25.1


30.8


28.5


32.4


武汉


29.1


27.9


24.2


31.7


西安


27.2


29.6


26.5


32.8


平均


27.32


29.56


26.44


31.46


 


2.方差分析原理


计算观察值的组间方差和组内方差,并计算两者的比值,如果该比值比较小,说明组间方差与组内方差比较接近,组间方差可以用组内方差来解释,从而说明组间差异不存在。


l         建立原假设“H0:各组平均数相等”


l         构造统计量“F=组间方差/组内方差”


l         在计算组间方差时,使用自由度为(r-1),计算组内方差时,使用自由度为(n-r)。


l         F满足第一自由度为(r-1),第二自由度为(n-r)的F分布。


l         查表,若F值大于0.05临界值,则拒绝原假设,认为各组平均数存在差异。


 





根据方差计算的原理,生成方差分析表如下:


其中:


    组间离差平方和 SSA (Sum of Squares for factor A) =39.084


    误差项离差平方和  SSE (Sum of Squares for Error) =76.8455


    总离差平方和  SST (Sum of Squares for Total)=115.9295


    P-value值为0.000466,小于0.05,所以拒绝原假设。


    F-crit是指0.05的边界值。


 




































差异源


SS


df


MS


F


P-value


F crit


组间


76.8455


3


25.61517


10.4862


0.000466


3.238867


组内


39.084


16


2.44275


 


 


 


总计


115.9295


19


 


 


 


 


 


3.双因素方差分析


观察下列销售数据,欲了解包装方式和销售地区是否对于销售业绩有影响,涉及到双因素的方差分析。


此时需分别计算SSA、SSB与SSE之间的比值是否超过临界值。


其中SSE的自由度为  (n-r-k)


 

















































 


包装方式(因素A)


包装A


包装B


包装C


包装D


包装E


销售地区(因素B)


地区1


20


12


20


10


14


地区2


22


10


20


12


6


地区3


24


14


18


18


10


地区4


16


4


8


6


18


地区5


26


22


16


20


10


 


    计算方差分析表如下:


其中:


行差异(地区因素)对于销售无显著影响;



    列差异(包装因素)对于销售有显著影响。


   


    误差项SSE=SST-SSA-SSB


 












































差异源


SS


df


MS


F


P-value


F crit



199.36


4


49.84


2.303142


0.103195


3.006917



335.36


4


83.84


3.874307


0.021886


3.006917


误差


346.24


16


21.64


 


 


 


总计


880.96


24


 


 


 


 


 


二.相关分析


1.基本概念


相关关系:变量间非确定性的相互关联关系。表现为延着一条曲线两侧的一排点。


函数关系:变量间确定性的相互关联关系。表现为曲线上的点。


相关系数:Coefficient of correlation



观察下列数据:人均国民收入与人均消费金额之间存在着线性相关关系。


计算:r=0.9987,即人均国民收入与人均消费金额之间存在着强相关关系。


 




























































年份


人均国民收入


人均消费金额


年份


人均国民收入


人均消费金额


1981


393.8


249


1988


1068.8


643


1982


419.14


267


1989


1169.2


699


1983


460.86


289


1990


1250.7


713


1984


544.11


329


1991


1429.5


803


1985


668.29


406


1992


1725.9


947


1986


737.73


451


1993


2099.5


1148


1987


859.97


513


 


 


 


 


2.相关关系的检验:


相关系数接近1的程度除受相关性影响外,还受数据量n的影响。在n=2时,相关系数确定为1。在相关程度相同的情况下,N越大,相关系数越小。


因此,在计算相关系数时,需要进行相关系数的检验,当r>临界值时,方可判断变量间存在相关关系。


相关系数只反映变量间的线性相关关系,当变量存在非线性的相关关系时,相关系数无法进行反映。


 


相关分析的临界值表




































































































































































n-2


0.05


0.01


n-2


0.05


0.01


n-2


0.05


0.01


1


0.997


1.000


16


0.468


0.590


35


0.325


0.418


2


0.950


0.990


17


0.456


0.575


40


0.304


0.393


3


0.878


0.959


18


0.444


0.561


45


0.288


0.372


4


0.811


0.917


19


0.433


0.549


50


0.273


0.354


5


0.754


0.874


20


0.423


0.537


60


0.250


0.325


6


0.707


0.834


21


0.413


0.526


70


0.232


0.302


7


0.666


0.798


22


0.404


0.515


80


0.217


0.283


8


0.632


0.765


23


0.396


0.505


90


0.205


0.267


9


0.602


0.735


24


0.388


0.496


100


0.195


0.254


10


0.576


0.708


25


0.381


0.487


125


0.174


0.228


11


0.553


0.684


26


0.374


0.478


150


0.159


0.208


12


0.532


0.661


27


0.367


0.470


200


0.138


0.181


13


0.514


0.641


28


0.361


0.463


300


0.113


0.148


14


0.497


0.623


29


0.355


0.456


400


0.098


0.128


15


0.482


0.606


30


0.349


0.449


1000


0.062


0.081


 


3.等级相关


相关系数衡量两个定距以上样本的相关关系,但对于定序尺度,无法进行计算。


等级相关用于两个定序尺度测量的样本间相关程度的测定。


将两个样本按观察数据的顺序进行配对,分别计算每个数据的秩,将两组样本的秩分别记录为U和V。


如果两个测度完全一致,则U与V的差异应当为0。


计算D=U-V的平方和,该值越大,表明相关性越差。


如下计算斯皮尔曼等级相关系数(Spearman coefficient of rank correlation)



考虑一个两评委对歌手打分的问题,分别按歌手得分的顺序计算U和V,计算R=0.3212。


 












































































参赛歌手编号


得分U


得分V


D=U-V


D×D


1


1


5


4


16


2


2


3


1


1


3


5


9


4


16


4


9


6


3


9


5


4


8


4


16


6


6


4


2


4


7


3


2


1


1


8


7


1


6


36


9


10


7


3


9


10


8


10


2


4


合计


 


 


 


112


 

  • 2
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
本书内容分为八个部分。共20章,分上、下两册,每册10章。各章均有大量习题。本书给出了大量的实际例子,这些例子涉及众多的学科和实际领域,但又不过于专门,容易理解。在大部分章节中都使用实例未引入主题,并把统计概念和这些非常实际的问题联系在一起进行讲解,深入浅出,从而可以避免许多人对统计所抱有的粗浅的感性认识,即认为统计仅仅是另一门数学课程。作者把统计数据的收集与分析过程总结成"四步法",并把"四步法"的讲解贯穿始终,利用实例逐步展开并阐明在设计调查研究或试验时所需要的统计技术和思路,然后讲解用直观、有效的"四步法"来收集并分析数据,非常利于初学者和实际工作人员抓住有关统计方法和模型的本质。书中提供了多种多样的图示,如正态概率图、盒形图、散点图、矩阵图和残差图等,通过这些图,读者可以一方面理解数据的特点和概括数据的方法,--方面进一步理解有关统计方法的基本思想和特点。作者很重视统计在解决实际问题中的作用,在全书中用许多篇幅讨论如何解释数据分析的结果,并专门用一章讲述了如何写数据分析报告。 本书适用于作为我国文科各专业的统计学引论教程。以及理工科各专业应用统计学课程的教材或教学参考书;也可作为有关方面实际工作人员的统计入门书。阅读本书不需要其他统计方面的基础,也不需要高等数学知识。 目录: 序言 第一部分引论 第一章什么是统计 1.1引言 1.2为什么学习统计 1.3当前统计的一些应用 1.4统计学家做什么 1.5质量和工序改进 1.6学生注意 1.7小结 补充练习 第二部分收集数据 第二章利用调查和科学研究来收集数据- 2.1引言 2.2调查 2.3科学研究 2.4观察研究 2.5数据整理:为概括和分析准备数据 2.6小结 第三部分概括数据 3.1引言 3.2计算器、计算机及软件系统 3.3单个变量数据的描述:图表法 3.4单个变量数据的描述:中心趋势的度量 3.5单个变虽数据的描述:变异性度量 3.6盒形图 3.7多变量数据的概括 3.8小结 重要公式 补充练习 第四部分工具和概念 第四章概率和概率分布 4.1如何应用概率进行推断 4.2确定一个事件的概率 4.3基本的事件关系和概率法则 4.4条件概率和独立性 4.5Bayes公式 4.6离散变最和连续变量 4.7离散随机变量的概率分布 4.8一个常用的离散随机变量:二项分布 4.9连续随机变量的概率分布 4.10一个常用的连续随机变量:正态分布 4.11随机抽样 4.12抽样分布 4.13二项分布的正态逼近 4.14Minitab指令 4.15小结 重要公式 补充练习 第五部分数据分析:中心值方差和比例 第五章关于总体中心值的推断 5.1引言和案例 5.2μ的估计 5.3估计μ时样本容量的选取 5.4关于μ的统计检验 5.5对于进行检验时样本容量的选取 5.6统计检验的显著性水十 5.7正态总体均值p的统计推断。未知 5.8关于中位数的推断 5.9小结 重要公式 补充练习 第六章两总体中心值的比较 6.1引言和案例 6.2关于μ1-μ2的推断:独立样本 6.3非参数推断方法:Wilcoxon秩和检验 6.4关于μ1-μ2的推断:成对数据 6.5非参数推断方法:Wilcoxon符号秩检验 6.6惟断μ1-μ2时样本容量的选取 6.7小结 重要公式 补充练习 第七章关于总体方差的推断 7.1引言和案例 7.2单个总体方差的估计和检验 7.3比较两个总体方差时的估计和检验 7.4比较多个总体方差时的检验 7.5小结 重要公式 补充练习 第八章两个以上总体的中心值的推断 8.1引言和案例 8.2两个以上总体均值的统计检验:方差分析 8.3完全随机化设计中观测值的模型 8.4方差分析条件的检查 8.5其他的分析方法:数据变换 8.6另一种非参数方法:Kruskal-Wallis检验 8.7小结 重要公式 补充练习 第九章多重比较 9.1引言和案例 9.2线性对照 9.3控制哪个错误率 9.4Fisher(费舍尔)最小显著差异法 9.5Tukey的W方法 9.6Student-Newman-Keuls方法 9.7Dunnett方法:处理组与对照组的比较 9.8Scheffe的S方法 9.9小结 重要公式 补充练习 第十章类型数据 10.1引言和案例 10.2总体比例π的推断 10.3两总体比例之差π1-π2的推断 10.4多比例的推断:卡方拟合优度检验 10.5Pokmn(泊松)分布- 10.6列联表:独立性检验和齐性检验 10.7柏关程度的度量 10.8几率和优比 10.9小结 重要公式 补充练习 第六部分数据分析:回归方法和模型的建立 第十一章线性回归和相关 11.1引言和案例 11.2估计模型中的参数 11.3回归参数的推断 11.4利用同归预测新的y值 11.5线性回归中拟合不足的考察 11.6逆回归问题(校准) 11.7相关 11.8小结 重要公式 补充练习 第十二章多元回归与一般线性模型 12.1引言和案例 12.2一般线性模型 12.3估计多元回归系数 12.4多元回归中的推断 12.5回归系数子集的检验 12.6用多元回归进行的预测 12.7比较几条回归线的斜率 12.8Logistic回归 12.9多元回归的一些理论结果(任选) 12.10小结 重要公式 补充练习 第十三章多元回归续论 13.1引言和案例 13.2变量的挑选(第一步) I3.3模型形式的确定(第二步) 13.4模型假设的检查(第三步) 13.5小结 重要公式 补充练习 第七部分试验设计与方差分析 第十四章试验和研究的设计概念 14.1引言 14.2研究的类型 14.3设计的试验:术语 14.4控制试验误差 14.5试验单元对处理的随机化 14.6确定重复试验的次数 14.7小结 第十五章标准设计的方差分析 15.1引言和案例 15.2单因子的完全随机化设计 15.3随机化完全区组设计 15.4拉丁方设计 15.5完全随机化设计中的因子处理结构 15.6随机化完全区组设计中的因子处理结构 15.7处理差异的估计和处理均值的比较 15.8小结 重要公式 补充练习 第十六章协方差分析 16.1引言和案例 16.2具有一个协变量的完全随机化设计 16.3外推问题 16.4多维协变量和更复杂的设计 16.5小结 补充练习 第十七章一些固定效应、随机效应和混合效应模型的方差分析 17.1引言和案例 17.2具有随机处理效应的单因子试验:随机效应模型 17.3随机效应模型的扩充 17.4混合效应模型 17.5计算期望均方的规则 17.6套抽样和裂区设计 17.7小结 补充练习 第十八章重复测量与交叉设计 18.1引言和案例 18.2有重复观测的单因子试验 18.3一个因子有重复观测的两因子试验 18.4交叉设计 18.5小结 补充练习 第十九章一些非平衡设计的方差分析 19.1引言和案例 19.2有一个或多个缺失观察值的随机化区组设计 19.3有缺失数据的拉丁方设计 19.4平衡不完全区组(BIB)设计 19.5小结 重要公式 补充练习 第二十章分析结果的传达和备案 20.1引言 20.2做好传达沟通工作所面临的困难 20.3传达的障碍:图形的歪曲 20.4传达的障碍:有偏抽样 20.5传达的障碍:样本容量 20.6为统计分析准备数据 20.7统计分析的指导原则和报告 20.8文档和结果的保存 20.9小结 补充练习 附录统计表 参考文献 索引 译后记
在医学统计学中,析因设计方差分析可以用来研究一个或多个自变量对因变量的影响,以及它们之间的交互作用。以下是析因设计方差分析的结论模板: 1. 对于主效应: 在α水平下,我们发现(自变量名称)显著影响(因变量名称)(F(自由度, F值) = F统计量, p < α),表明(自变量名称)的不同水平与(因变量名称)之间存在显著差异。 2. 对于交互作用: 在α水平下,我们发现(自变量1名称)和(自变量2名称)之间存在显著交互作用(F(自由度, F值) = F统计量, p < α),表明(自变量1名称)和(自变量2名称)在影响(因变量名称)方面不是独立的。 3. 对于主效应和交互作用的结合: 在α水平下,我们发现(自变量1名称)显著影响(因变量名称)(F(自由度, F值) = F统计量, p < α),而(自变量2名称)与(因变量名称)之间不存在显著差异(F(自由度, F值) = F统计量, p > α)。此外,我们还发现(自变量1名称)和(自变量2名称)之间存在显著交互作用(F(自由度, F值) = F统计量, p < α)。这表明(自变量1名称)和(自变量2名称)对(因变量名称)的影响不是独立的,它们之间的关系需要进一步探讨。 需要注意的是,对于每个结论,需要提供统计量(如F值)和显著性水平(如p值)的值,并解释它们的含义。此外,还需要根据实验的设计和问题来选择合适的结论模板。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值