总第178篇/张俊红
01.前言
前面我们讲过了多元线性回归。这一篇我们来讲讲逐步回归。什么是逐步回归呢?就是字面意思,一步一步进行回归。
我们知道多元回归中的元是指自变量,多元就是多个自变量,即多个x。这多个x中有一个问题需要我们考虑,那就是是不是这多个x都对y有作用。答案就是有的时候都管用,有的时候部分管用。那对于那些没用的部分我们最好是不让它加入到回归模型里面。我们把这个筛选起作用的变量或者剔除不起作用变量的过程叫做变量选择。
我们刚提到自变量有用没用,那怎么来评判一个自变量到底有用没用呢?判断依据就是对自变量进行显著性检验。具体方法是将一个自变量加入到模型中时,有没有使残差平方和显著减少,如果有显著减少则说明这个变量是有用的,可以把这个变量加入到模型中,否则说明时无用的,就可以把这个变量从模型中删除。有没有显著减少的判断标准就是根据F统计量来判断。
关于判断F统计量的显著性我们在方差分析里面讲过,大家可以去看看。
变量选择主要有:向前选择、向后踢出、逐步回归、最优子集等,我们这一篇主要讲前三种。
02.向前选择
向前选择可以理解成从零开始选择,因为模型最开始的时候是没有自变量的,具体的步骤如下:
Step1:拿现有的k个变量分别和y建立回归模型,最后会得到k个模型以及每个模型中变量对应的F统计量和其p_value,然后从显著的模型中挑选出F统计量最大模型对应的自变量ÿ