上一篇文章已经对方差分析和线性回归的关系进行了阐述,不过刚看到了一位朋友的留言提问,所以想针对这个问题继续谈一下二者的关系。
这一次主要是想结合一个实例来说明。比如有下面这样一个虚拟的例子:
组别 | 数值 |
1 | 11.1 |
1 | 8.17 |
1 | 12.73 |
1 | 15.83 |
1 | 15.6 |
1 | 17.2 |
1 | 5.45 |
1 | 11.3 |
2 | 23.73 |
2 | 18.86 |
2 | 26.65 |
2 | 16.72 |
2 | 17.33 |
2 | 18.08 |
2 | 16.55 |
2 | 17.87 |
这里可以看到,总共有两个变量,组别肯定是自变量,而数值(不管是什么结果)就是因变量。因为分组是人为控制的,而数值是一个随机变量,是需要观察才能了解的。
这里的自变量只有两个值,即1和2,因变量则有不同的数值。一般来说,如果自变量的类别很少,可以考虑采用方差分析,而如果类别很多,则考虑采用线性回归。实际上,无论采用哪种方法,他们的结果都是一致的。这里用SAS对方差分析和线性回归的分析结果进行比较。
如果用方差分析,结果为F=14.28,P=0.002,两组有统计学差异。如果采用线性回归,结果为F=14.28,P=0.002,或t=3.78,P=0.002。结果表明组别对数值有影响。
可以发现,他们的F值是相同的,而且F值恰好是T值的平方。而P值是不变的。这些绝不是偶然。而是必然的联系。也许大家在学习统计学的过程中,并没有老师介绍方差分析和T检验的关系,这里既然讲到这里,就顺便提一句,方差分析的F值是t检验的t值的平方。如果还想进一步看他们的关系,仔细观察一下F分布和t分布的图形,一定会对大家理解二者的关系有所帮助。
至于到底选择什么模型,是方差分析还是线性回归,其实不必拘泥。如果我的分组变量有2组或3组4组,一般来说,采用方差分析的可能性大一些。如果分组变量(或自变量)的类别很多,比如7类8类等,可以考虑采用线性回归。但这不是绝对的,也跟例数有关。比如,分组变量只有4组,即1、2、3、4,但结果变量只有7个,那这时采用线性回归或许更好一些。如果分组变量有8组,即1-8,但结果变量有1000个,这是还是采用方差分析更好一些。具体选用哪一种方法都无所谓,关键是他们的结果都是一致的,总会得出相同的结论。