1.多元线性回归模型
1.1多元线性回归形式
相对上一篇文章之中的一元线性回归,多元线性回归的主要特点是,自变量不再是一组数据,而是由多于一组以上的数据作为自变量。所以,多元线性回归的模型形式为:
其中,...是待定系数。是自变量,是剩余项。
当自变量纬度从一维开始增加的时候,我们所拟合的线性模型也可以拓展为平面。在二元线性回归模型中可以视为样本回归平面,当我们使用样本作为训练集的时候,我们所拟合出来的平面是线性回归平面,当我们使用全部数据的时候,得到的就是总体回归面。而对于模型之中各变量之间的要求,在一元线性回归的要求之上还对自变量之间增加了独立性的要求。总结如下图:
1.2多元线性回归方程估计
多元线性回归方程与一元线性回归方程一样,通过最小二乘法进行参数估计。所以,我们根据上一篇文章之中的式子进行推到。我们可以得出下式。
通过对此式求极值,就可以得出我们所需要的参数的联立方程组:
我们可以得到一个针对不同参数求导的方程组,我们队这个方程组进行整理,可以将上述方程组转化为以下形式:
将方程组所有的数据项进行展开,我们可以得到上式,参照矩阵乘法的方法,将我们所得出的式子继续化简,得出更为简便的形式。
通过对相关式子进行化简,我们可以将之前的参数方程组化简为矩阵形式的式子:。通过对上式的化简,我们可以得出参数矩阵b的求解式子。
我们将上述的数据带入之后就可以得到我们所要求的相关参数。
1.3多元线性回归显著性检验
我们对通过正规方程法求出的参数项,需要对其回归显著性进行检验。F检验是通过对残差平方和与回归平方和以及自由度三个方面作弊,构建F检验所需要的统计量。其中SSR是回归方程的回归平方和,SSE是回归方程的残差平方和。
我们通过构建出的F统计量,F越大,我们认为拟合效果越好。一般在某个指定的显著性水平下,的时候,我们就认为,回归方程已经足够显著了。
1.4多元线性回归变量选择
我们在对多元参数拟合完成之后,可能方程并不能完美的符合要求,通不过F检验或者输出结果并不符合常理。这是因为我们对于变量的选择出现了偏差。这种情况多是因为在自变量选择之中存在,相关系数过高变量。这种情况我们称其为多重共线性。我们对多重共线性检验主要是通过两种方法进行检验:容限度以及方差因子扩大法。
容限度的公式为:。其为,变量自身与其他变量的相关系数与1做差。通常我们认为容限度小于0.1()的情况下,多重共线性超过了界限。
方差因子扩大法,则是对容限度取倒数。所以,我们认为方差因子(通常记为VIF)的值大于10的时候,多重共线性就超过了界限。
而针对这种情况我们可以选择删除变量、追加样本信息、利用非样本的先验信息、改变变量形式以及逐步回归法对模型进行调整。通过这样的方式,我们可以降低模型的多重共线性,提高模型精度。但需要注意的是,我们在变量选择的时候要注意变量的数量与成本之间的选择。变量增多会导致计算量增加、模型应用成本增加。所以,在实际生产应用中对于变量选择的时候也是需要注意的,并非所有的变量都需要在模型之中进行体现的。
我们在选择变量的时候通常遵循以下几条准则:
1.平均残差平方和最小
2.误差均方根最小
3.校正决定系数
上述三条都是等价的验证条件。
4.准则
5.AIC、BIC准则
我们通过上述这些准则就可以选择相应变量,我们在变量选择之中有三种方法:前进法,从无到有将所有的变量一个个的加入进行进去,再根据上面的指标进行选择是否增加。后退法是将所有变量都放入模型中,通过提出观察指标变化进行剔除。逐步回归法则是双向筛选,引进有意义的变量,提出无关变量。