现实中大多数的结果都是多个原因引起的,所谓一因一果对应的事情是非常少见的。从医学领域来看,几乎任何疾病都不是由一种原因造成的,而是多钟病因共同作用的结果。因此,多重线性回归在实际中应用更为广泛。
多重线性回归(multiple linear regression),有的教材也称之为多元线性回归,就是指一个因变量,多个自变量的线性回归。多重线性回归比单因素的线性回归复杂之处不在于多了几个变量,更为重要的是,这些自变量之间可能存在一定的关系,从而导致分析的复杂化。因为我们想了解的是某个自变量对因变量的单独效应,或者说独立效应。因此,必须想办法找出每个自变量的独立影响作用。
比如,我想了解一个人的血压受哪些因素的影响。可以肯定地说,绝不是一个因素就导致血压高,假定我们考虑两个因素,一个是体重,一个是年龄。如果分别对体重和血压、年龄和血压做单因素分析,所得出的结果不一定是体重、年龄的独立影响,因为体重可能与年龄有关(当然,也可能无关)。体重对血压的影响就有可能掺杂着年龄的部分作用,而年龄对血压的影响也可能掺杂着体重的部分作用。那么,如何去除其他因素的作用呢?就需要用到多重线性回归的分析策略了。
多重线性回归更多地应该从它的分析策略上理解,因为分析过程在统计软件的帮助下是极其简单的,把所有的因素往里一放,就出来结果了。关键的地方是哪些因素我该放,哪些因素我不该放?这才是重点所在。
统计分析是一项艺术策略,这主要体现在多因素的分析中。有很多东西是经验积累形成的,并不是说三言两语能讲清楚的。我这里的意思也不是想通过这一篇文章就让大家都明白如何做多因素分析,更为关键的是想让大家能明白,统计分析是一个非常细致的过程,需要多方面的考虑,否则很容易得出错误的结论。在以后的文章中,我会逐渐将多因素分析的策略一一论述,让大家慢慢掌握统计分析的手段。