多元线性回归总结

最新推荐文章于 2024-07-28 13:33:18 发布

GBF1996

最新推荐文章于 2024-07-28 13:33:18 发布

阅读量1.5w

点赞数 10

分类专栏：数学知识

本文链接：https://blog.csdn.net/GBF1996/article/details/83344099

版权

数学知识专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.多元线性回归模型

1.1多元线性回归形式

相对上一篇文章之中的一元线性回归，多元线性回归的主要特点是，自变量不再是一组数据，而是由多于一组以上的数据作为自变量。所以，多元线性回归的模型形式为：

$y_a=\beta _{0}+\beta _{1}x_{1a}+\beta _{2}x_{2a}+...++\beta _{K}x_{Ka}+\varepsilon _{a}$

其中， $\beta _{0}$ ... $\beta _{k}$ 是待定系数。 $x_{1a}...x_{ka}$ 是自变量， $\varepsilon _{a}$ 是剩余项。

当自变量纬度从一维开始增加的时候，我们所拟合的线性模型也可以拓展为平面。在二元线性回归模型中可以视为样本回归平面，当我们使用样本作为训练集的时候，我们所拟合出来的平面是线性回归平面，当我们使用全部数据的时候，得到的就是总体回归面。而对于模型之中各变量之间的要求，在一元线性回归的要求之上还对自变量之间增加了独立性的要求。总结如下图：

1.2多元线性回归方程估计

多元线性回归方程与一元线性回归方程一样，通过最小二乘法进行参数估计。所以，我们根据上一篇文章之中的式子进行推到。我们可以得出下式。

$SS_{T}=\sum_{1}^{n}(y_a-\widehat{y_a})^{2}=\sum_{1}^{n}(y_a-(\beta_0+\beta_1x_1a...+\beta_{k}x_{ka}))^{2}\rightarrow min$

通过对此式求极值，就可以得出我们所需要的参数的联立方程组：

我们可以得到一个针对不同参数求导的方程组，我们队这个方程组进行整理，可以将上述方程组转化为以下形式：

将方程组所有的数据项进行展开，我们可以得到上式，参照矩阵乘法的方法，将我们所得出的式子继续化简，得出更为简便的形式。

通过对相关式子进行化简，我们可以将之前的参数方程组化简为矩阵形式的式子： $Ab=B$ 。通过对上式的化简，我们可以得出参数矩阵b的求解式子。

$b=A^{-1}B=(X^{T}X)^{-1}XY$

我们将上述的数据带入之后就可以得到我们所要求的相关参数。

1.3多元线性回归显著性检验

我们对通过正规方程法求出的参数项，需要对其回归显著性进行检验。F检验是通过对残差平方和与回归平方和以及自由度三个方面作弊，构建F检验所需要的统计量。其中SSR是回归方程的回归平方和，SSE是回归方程的残差平方和。

$F=\frac{SS_{R}}{\frac{SS_{E}}{n-2}}$

我们通过构建出的F统计量，F越大，我们认为拟合效果越好。一般在某个指定的显著性水平下， $F>F_{a}$ 的时候，我们就认为，回归方程已经足够显著了。

1.4多元线性回归变量选择

我们在对多元参数拟合完成之后，可能方程并不能完美的符合要求，通不过F检验或者输出结果并不符合常理。这是因为我们对于变量的选择出现了偏差。这种情况多是因为在自变量选择之中存在，相关系数过高变量。这种情况我们称其为多重共线性。我们对多重共线性检验主要是通过两种方法进行检验：容限度以及方差因子扩大法。

容限度的公式为： $Tolerancce=1-R^{2}$ 。其为，变量自身与其他变量的相关系数与1做差。通常我们认为容限度小于0.1( $R^{2}>0.9$ )的情况下，多重共线性超过了界限。

方差因子扩大法，则是对容限度取倒数。所以，我们认为方差因子（通常记为VIF）的值大于10的时候，多重共线性就超过了界限。

而针对这种情况我们可以选择删除变量、追加样本信息、利用非样本的先验信息、改变变量形式以及逐步回归法对模型进行调整。通过这样的方式，我们可以降低模型的多重共线性，提高模型精度。但需要注意的是，我们在变量选择的时候要注意变量的数量与成本之间的选择。变量增多会导致计算量增加、模型应用成本增加。所以，在实际生产应用中对于变量选择的时候也是需要注意的，并非所有的变量都需要在模型之中进行体现的。

我们在选择变量的时候通常遵循以下几条准则：

1.平均残差平方和最小

$(RMS_P=\frac{RSS_P}{n-p})$