线性回归尽管在各个领域中用得如此广泛,但是真正能对其深入理解的并不多。从目前的统计学教材来看,大多都仅限于肤浅的介绍或一味地抄袭,很少有人加入自己的理解。
前面几篇文章已经说明了“回归”的含义,那么“线性”是什么意思呢?“线性”是个关键词,它决定了线性回归的使用范围。所谓线性,通俗地讲,就是因变量与自变量大致呈直线状变化,不是绝对的直线,而是大体算是直线。如下图所示
自变量x与因变量y大体呈直线关系,因变量y随自变量x的增加而升高。这就是线性。对于线性的描绘,最简单的可以用excel来实现。通过excel的“图表向导”功能,选用其中的“散点图”,就可以绘制上面这样的图形。如果想做的漂亮些,可以加上趋势线,体现出其线性,而且还可以加上方程。如下图所示
“线性”这一词实际上还说明了一个问题,即如果二者的关系不是直线的,用线性回归可能不一定适合,最好就换别的统计方法,如下图所示的数据,就明显的不呈直线关系。
对于这种不呈直线关系的数据,如果非要采用线性回归分析,结果就会偏离实际情况。正如前面一篇文章里所说的,本来数据是个圆形,如果硬拿个长方形来套用,肯定不合适。
对于数据不呈直线关系的,一般可以采用曲线回归,也可以将因变量进行变换,如对数变换、指数变换等,变换成为与自变量呈直线关系的形式,然后将变换后的数据与自变量进行回归分析。
总之,最后的结论就是:对于任何数据,一定要先看清楚数据结构,不能一味地套用,而应具体问题具体分析,符合哪种形式,就用相应的方法,千万不要生搬硬套。