我写的文章不多,其中阅读量最大的一篇,是这篇最常用的统计学分析方法--假设检验(大家也可以在读本文前,先读这一篇,相同的思路有助于快速学习理解)。文章中列举了很多可用的假设检验,唯独缺了最常用的方法之一——F检验。因为Matlab将其单独作为一章,即方差分析,可见其重要性不言而喻。方差分析和F检验是同义词,从定义上看,方差分析是一种将样本方差分配到不同来源的过程,判定方差在组间和组内是否(明显)具有区别的一种方法。如果组内差异相对于组间差异较小,则可以推断出组与组之间是有明显差异的。简单来说就是看看两组或几组样本是不是来自同一个总体。(本文为了兼顾各种理解,采用了方差、变异、差异等多个意义类似的术语)
广义的方差分析分为以下几类方法:
(1)单因素方差分析(1-way ANOVA)
(2)双因素方差分析(2-way ANOVA)与多因素方差分析(N-way ANOVA)
(3)协方差分析(ANCOVA)
(4)多响应方差分析(MANOVA)
(5)重复测量(Repeated Measures)
1-way ANOVA是以上所有方法的基础,本文只介绍 1-way ANOVA。
一、1-way ANOVA的基本思想
F检验作为一个假设检验,首先还是要有一组对立的假设。其零假设认为所有组的均值都相等,备择假设则认为所有组的均值不全相等(即至少有一个组的均值与其它具有显著差异)。
![5fdcfbb2016ebb6e167a93ea80e50a40.png](https://img-blog.csdnimg.cn/img_convert/5fdcfbb2016ebb6e167a93ea80e50a40.png)
方差分析的核心思想一句话:“所有样本的总差异可以分解为组间差异和组内差异”。
![56cdf3a6481c7a0754320b11864f0588.png](https://img-blog.csdnimg.cn/img_convert/56cdf3a6481c7a0754320b11864f0588.png)
![a57dc63a9aa8981ea9a8c51d0da7b518.png](https://img-blog.csdnimg.cn/img_convert/a57dc63a9aa8981ea9a8c51d0da7b518.png)
我们设总样本数为N,组数为k(k大于等于2),其中:
(1)总差异(SST):全部样本与全体样本均值的总差异,总差异的自由度为N-1。总差异的均方在分析中一般用不到。
(2)组间差异(SSR):组均值与总体均值的差异,组间差异的自由度为k-1,因此组间差异的均方(MSR)为SSR/k-1
(3)组内差异(SSE):具体每个样本与其所在组均值的差异,组内差异的自由度为N-k,因此组内差异的均方(MSE)为SSE/N-k
MSR和MSE的比值,就是F统计量。理论证明,当H0成立时,F统计量服从对应自由度分别为k-1,N-k的F分布。F值越接近1,就越没有理由拒绝H0;反之,F值越大,拒绝H0的理由就越充分。算出来一除就行了,是不是也很简单。
![68f3c01a3fdca9218a9d236af982ca9e.png](https://img-blog.csdnimg.cn/img_convert/68f3c01a3fdca9218a9d236af982ca9e.png)
二、方差分析表(ANOVA Table)
方差分析表是最终展示所有分析结果的表格,整个分析的最终目的,其实就是填满这个表,表填满了,我们就完成了任务。这个表基本在所有统计软件都会有,而且形式也差不多。
![09e70dcd37f7ac38f4373e8707126d1a.png](https://img-blog.csdnimg.cn/img_convert/09e70dcd37f7ac38f4373e8707126d1a.png)
![92313607ababa19339956161d514b1ff.png](https://img-blog.csdnimg.cn/img_convert/92313607ababa19339956161d514b1ff.png)
![f4f65e6bbf4c4e5634fd77a8034a1e61.png](https://img-blog.csdnimg.cn/img_convert/f4f65e6bbf4c4e5634fd77a8034a1e61.png)
![432469937aff16f82235c6555b30f703.png](https://img-blog.csdnimg.cn/img_convert/432469937aff16f82235c6555b30f703.png)
三、多重比较
如果p值很小,从而推翻了零假设,同时你的数据数量多于两组的时候。你可以用“多重比较”来确定到底是哪个组的均值不同于其他组。当然这就会有很多组比较结果,画出一个清晰的图可以让你对结果一目了然。
![d9f3d88ab0e833b4c56fad2bd1aa2aa0.png](https://img-blog.csdnimg.cn/img_convert/d9f3d88ab0e833b4c56fad2bd1aa2aa0.png)
四、注意事项
(1)ANOVA首先假设所有样品成正态分布(可以首先用假设检验检查样本的正态性,有好几种选择,这里暂时不列出)而且ANOVA对正态性的要求比较敏感。
(2)单因素方差分析中的“因素”,是研究中关注的内生变量,或者说响应变量。所以核心公式1中用的是y。当响应和预测因素同时存在时,应该选择协方差分析。
五、结束语
方差分析作为一个常用的分析方法,其F函数却是一个包含伽马函数的复杂公式,其中的伽马函数是阶乘的解析延拓,一个积分形式的超越函数,所以建议不要从F函数的角度去理解F检验,也不要想着去查表。选择一款统计软件,学会使用内置函数,学会基本原理,才是正确的方式。
![7404b649aaa7bd53c1a6e4422385d35b.png](https://img-blog.csdnimg.cn/img_convert/7404b649aaa7bd53c1a6e4422385d35b.png)
![afd02a1091c7139bd878853572ed9601.png](https://img-blog.csdnimg.cn/img_convert/afd02a1091c7139bd878853572ed9601.png)
![cfcfe4898b4efb092357d5fb27cfd65b.png](https://img-blog.csdnimg.cn/img_convert/cfcfe4898b4efb092357d5fb27cfd65b.png)
![882c095b318b0af31b8460ebe53d2b3c.png](https://img-blog.csdnimg.cn/img_convert/882c095b318b0af31b8460ebe53d2b3c.png)