线性回归介绍之六——再谈回归与方差分析的关系

上一篇文章已经对方差分析和线性回归的关系进行了阐述,不过刚看到了一位朋友的留言提问,所以想针对这个问题继续谈一下二者的关系。

这一次主要是想结合一个实例来说明。比如有下面这样一个虚拟的例子:

组别 数值
1 11.1
1 8.17
1 12.73
1 15.83
1 15.6
1 17.2
1 5.45
1 11.3
2 23.73
2 18.86
2 26.65
2 16.72
2 17.33
2 18.08
2 16.55
2 17.87

这里可以看到,总共有两个变量,组别肯定是自变量,而数值(不管是什么结果)就是因变量。因为分组是人为控制的,而数值是一个随机变量,是需要观察才能了解的。

这里的自变量只有两个值,即1和2,因变量则有不同的数值。一般来说,如果自变量的类别很少,可以考虑采用方差分析,而如果类别很多,则考虑采用线性回归。实际上,无论采用哪种方法,他们的结果都是一致的。这里用SAS对方差分析和线性回归的分析结果进行比较。

如果用方差分析,结果为F=14.28,P=0.002,两组有统计学差异。如果采用线性回归,结果为F=14.28,P=0.002,或t=3.78,P=0.002。结果表明组别对数值有影响。

可以发现,他们的F值是相同的,而且F值恰好是T值的平方。而P值是不变的。这些绝不是偶然。而是必然的联系。也许大家在学习统计学的过程中,并没有老师介绍方差分析和T检验的关系,这里既然讲到这里,就顺便提一句,方差分析的F值是t检验的t值的平方。如果还想进一步看他们的关系,仔细观察一下F分布和t分布的图形,一定会对大家理解二者的关系有所帮助。

至于到底选择什么模型,是方差分析还是线性回归,其实不必拘泥。如果我的分组变量有2组或3组4组,一般来说,采用方差分析的可能性大一些。如果分组变量(或自变量)的类别很多,比如7类8类等,可以考虑采用线性回归。但这不是绝对的,也跟例数有关。比如,分组变量只有4组,即1、2、3、4,但结果变量只有7个,那这时采用线性回归或许更好一些。如果分组变量有8组,即1-8,但结果变量有1000个,这是还是采用方差分析更好一些。具体选用哪一种方法都无所谓,关键是他们的结果都是一致的,总会得出相同的结论。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值