多元线性回归总结

1.多元线性回归模型

1.1多元线性回归形式

相对上一篇文章之中的一元线性回归,多元线性回归的主要特点是,自变量不再是一组数据,而是由多于一组以上的数据作为自变量。所以,多元线性回归的模型形式为:

y_a=\beta _{0}+\beta _{1}x_{1a}+\beta _{2}x_{2a}+...++\beta _{K}x_{Ka}+\varepsilon _{a}

其中,\beta _{0}...\beta _{k}是待定系数。x_{1a}...x_{ka}是自变量,\varepsilon _{a}是剩余项。

 

当自变量纬度从一维开始增加的时候,我们所拟合的线性模型也可以拓展为平面。在二元线性回归模型中可以视为样本回归平面,当我们使用样本作为训练集的时候,我们所拟合出来的平面是线性回归平面,当我们使用全部数据的时候,得到的就是总体回归面。而对于模型之中各变量之间的要求,在一元线性回归的要求之上还对自变量之间增加了独立性的要求。总结如下图:

1.2多元线性回归方程估计

多元线性回归方程与一元线性回归方程一样,通过最小二乘法进行参数估计。所以,我们根据上一篇文章之中的式子进行推到。我们可以得出下式。

SS_{T}=\sum_{1}^{n}(y_a-\widehat{y_a})^{2}=\sum_{1}^{n}(y_a-(\beta_0+\beta_1x_1a...+\beta_{k}x_{ka}))^{2}\rightarrow min

通过对此式求极值,就可以得出我们所需要的参数的联立方程组:

我们可以得到一个针对不同参数求导的方程组,我们队这个方程组进行整理,可以将上述方程组转化为以下形式:

将方程组所有的数据项进行展开,我们可以得到上式,参照矩阵乘法的方法,将我们所得出的式子继续化简,得出更为简便的形式。

 

 

 通过对相关式子进行化简,我们可以将之前的参数方程组化简为矩阵形式的式子:Ab=B。通过对上式的化简,我们可以得出参数矩阵b的求解式子。

b=A^{-1}B=(X^{T}X)^{-1}XY

我们将上述的数据带入之后就可以得到我们所要求的相关参数。

1.3多元线性回归显著性检验

我们对通过正规方程法求出的参数项,需要对其回归显著性进行检验。F检验是通过对残差平方和与回归平方和以及自由度三个方面作弊,构建F检验所需要的统计量。其中SSR是回归方程的回归平方和,SSE是回归方程的残差平方和。

F=\frac{SS_{R}}{\frac{SS_{E}}{n-2}}

我们通过构建出的F统计量,F越大,我们认为拟合效果越好。一般在某个指定的显著性水平下,F>F_{a}的时候,我们就认为,回归方程已经足够显著了。

1.4多元线性回归变量选择

我们在对多元参数拟合完成之后,可能方程并不能完美的符合要求,通不过F检验或者输出结果并不符合常理。这是因为我们对于变量的选择出现了偏差。这种情况多是因为在自变量选择之中存在,相关系数过高变量。这种情况我们称其为多重共线性。我们对多重共线性检验主要是通过两种方法进行检验:容限度以及方差因子扩大法。

容限度的公式为:Tolerancce=1-R^{2}。其为,变量自身与其他变量的相关系数与1做差。通常我们认为容限度小于0.1(R^{2}>0.9)的情况下,多重共线性超过了界限。

方差因子扩大法,则是对容限度取倒数。所以,我们认为方差因子(通常记为VIF)的值大于10的时候,多重共线性就超过了界限。

而针对这种情况我们可以选择删除变量、追加样本信息、利用非样本的先验信息、改变变量形式以及逐步回归法对模型进行调整。通过这样的方式,我们可以降低模型的多重共线性,提高模型精度。但需要注意的是,我们在变量选择的时候要注意变量的数量与成本之间的选择。变量增多会导致计算量增加、模型应用成本增加。所以,在实际生产应用中对于变量选择的时候也是需要注意的,并非所有的变量都需要在模型之中进行体现的。

我们在选择变量的时候通常遵循以下几条准则:

1.平均残差平方和最小

(RMS_P=\frac{RSS_P}{n-p})

2.误差均方根最小

(RSE_P=\sqrt{RMS_P})

3.校正决定系数

adjR^{2}=1-\frac{n-1}{n-p}(1-R^2)=1-\frac{\frac{RSS_p}{(n-p)}}{\frac{SS_T}{(n-1)}}=1-\frac{n-1}{SS_T}RMS_P

上述三条都是等价的验证条件。

4.C_p准则

 

 

 

5.AIC、BIC准则

 

 

 

我们通过上述这些准则就可以选择相应变量,我们在变量选择之中有三种方法:前进法,从无到有将所有的变量一个个的加入进行进去,再根据上面的指标进行选择是否增加。后退法是将所有变量都放入模型中,通过提出观察指标变化进行剔除。逐步回归法则是双向筛选,引进有意义的变量,提出无关变量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值