多元病态线性回归

ys-li

于 2021-02-04 22:44:53 发布

阅读量4.5k

点赞数 15

分类专栏：机器学习文章标签：机器学习统计学

本文链接：https://blog.csdn.net/qq_38832757/article/details/113666103

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

一、病态线性回归问题中，显著性检验是否需要？如果需要，是在自变量降维去线性之前，还是之后，还是前后都检验？

病态线性回归问题需要进行显著性检验，需要在自变量降维去线性之后进行显著性检验。

显著性检验（significance test）就是事先对总体（随机变量）的参数或总体分布形式做出一个假设，然后利用样本信息来判断这个假设（备择假设）是否合理，即判断总体的真实情况与原假设是否有显著性差异。或者说，显著性检验要判断样本与我们对总体所做的假设之间的差异是纯属随机误差，还是由我们所做的假设与总体真实情况之间不一致所引起的。显著性检验是针对我们对总体所做的假设做检验，其原理就是“小概率事件实际不可能性原理”来接受或否定假设。

病态线性回归问题也需要利用样本信息来判断总体的参数或总体分布形式假设是否合理，判断总体的真实情况与原假设是否有显著性差异，因此病态线性回归问题中也需要进行显著性检验。

显著性检验目的是判断总体真实情况与原假设是否有显著性差异，其公式为
$F=\frac{ESS/f_E}{RSS/f_R}=\frac{(N-n-1)ESS}{nRSS}$
其中 $E S S, R S S$ 只与真实情况与预测结果有关，与自变量维度无关，因此显著性检测位置只会影响 $f_E,f_R$ 参数中自变量自由度 $n$ 。病态线性回归问题中，自变量 $X_{N\times n_1}$ 线性相关，为降低极小特征值带来的巨大预测误差，需要近似地用更少的一组向量 $Z_{N\times n_2},n_2<n_1$ 线性表示(降维)。因此自变量实际自由度 $n=n_2$ ， $n_2$ 是它的最大线性无关组所含向量数目，故显著性检验应在去线性(降维)之后进行。

二、实现多元线性回归

主要分为以下几步

数据标准化
特征值排序，检验是否为病态回归问题
若为病态回归问题，则降维处理
建立回归模型，计算回归参数、回归结果
平方和分解
显著性检验
回归直线方程
求解置信区间

数据标准化

对自变量和因变量分别进行标准化化处理，借助均值、方差信息，将自变量 $X$ ，因变量 $Y$ 转化为均值为0、方差为1的标准化数据 $X^{'}, Y^{'}$ 以消除变量单位的影响
$x'_i=\frac{x_i-\mu_{x_i}}{\sigma_{x_i}}\\ X'=(X-\vec\mu_x^T)\div {\vec\sigma_x^T}\\ y'= \frac{y-\mu_y}{\sigma_y}\\$
为自适应处理多元线性回归问题，自变量的均值方差均使用行向量表示。

MATLAB中使用zscore函数实现标准化处理，保留均值与方差以便数据恢复。

特征值排序，检验是否为病态回归问题

求解 $X'X'^T$ 的特征值与特征向量，以特征值总和的1%为特征值阈值，若存在小于阈值的特征值，则定义为病态线性回归问题

若为病态回归问题，则降维处理

将大于阈值的特征值降序排序，对应的特征向量按顺序组合成一个传递矩阵 $Q$ 。通过该传递矩阵，自变量 $X$ 可由一组正交向量 $Z$ 表示，即满足 $X^{'} = Q Z$

组成传递矩阵 $Q$ 的特征向量相互正交，因此 $Q^TQ=I$ ，故 $Q^TX'=Q^TQZ=Z$

$Z=Q^TX'$ 为可线性表示 $X^{'}$ 的一组正交向量，并且不存在更少数目的向量满足此条件。

建立回归模型，计算回归参数、回归结果

建立线性回归模型 $Y'=\theta^T X'$ (非病态线性回归)或 $Y'=\theta^T Z$ (病态线性回归)， $\theta^T$ 为待估计的参数。

为便于程序处理，对于一般多元线性回归问题，令 $Q = I$ ， $Z=Q^TX'$ ，将模型统一为 $Y'=\theta^T{ Z}$ ，

使用最小二乘法估计 $\theta$ ，将逼近误差
$\sum(Y'-\theta^T Z)(Y'-\theta^T Z)^T$

求偏导得到最优解
$\hat{\theta}=(ZZ^T)^{-1}ZY'^T$
根据求解得到的 $\hat{\theta}$ 求解线性回归结果 $\hat{Y'}=\hat{\theta}^T Z$ 。

平方和分解

将总平方和 $T S S$ 分解为解释平方和 $E S S$ 与剩余平方和 $R S S$
$TSS=\sum_{i=1}^N(y_i-\bar y)^2\\ ESS=\sum_{i=1}^N(\hat y_i-\bar y)^2\\ RSS=\sum_{i=1}^N(y_i-\hat y_i)^2\\ TSS=ESS+RSS\\$
其中 $y_i$ 为归一化后的真实数据， $\hat y_i$ 为线性回归求解结果， $\bar y=\frac{1}{N}\sum_{i=1}^N y_i$ 。

上式主要用于显著性检验(F检验)与求解置信区间，有原始数据与归一化数据两种方案，二者本质相同，F检验中使用两种数据结果相同，求解置信区间时使用两种数据差别在于 $\sigma_y$ ，相关证明见显著性检验小节。

显著性检验

使用F检验进行显著性检验
$f_T=N-1\text{ , }f_E=n\text{ , }f_R=N-n-1\\ F=\frac{ESS/f_E}{RSS/f_R}=\frac{(N-n-1)\sum_{i=1}^N(\hat y_i-\bar y)^2}{n\sum_{i=1}^N(y_i-\hat y_i)^2}$
其中 $f_T,f_E,f_R$ 分别为 $T S S, E S S, R S S$ 的自由度。

对于给定的显著性水平 $\alpha$ 以及自由度( $n$ , $N - n - 1$ )，查 $F$ 分布表，得到相应的临界值 $F_\alpha$ ，从而进行显著性检验。当 $F>F_\alpha$ 时，认为 $x$ 与 $y$ 存在线性关系；当 $F\leq F_\alpha$ 时，认为 $x$ 与 $y$ 不存在线性关系。

$E S S, R S S$ 计算与数据预处理相关，有原始数据与归一化数据两种方案，现证明二者本质相同，且在F检验中结果相同。
$\hat y'=\hat{\theta}^TZ=(ZZ^T)^{-1}Zy'^TZ\\ =[(Q^TX'){(Q^TX')}^T]^{-1}(Q^TX')y'^T(Q^TX')\\ =\frac{1}{(Q^TX'){(Q^TX')}^T}(Q^TX')y'^T(Q^TX')\\$
其中 $X'=(X-\vec\mu_x^T)\div {\vec\sigma_x^T}$ 为矩阵 $X$ 的元素按行与行向量 $\vec\mu_x^T,\vec\sigma_x^T$ 进行点操作。式中所有 $X^{'}$ 都左乘 $Q^T$ ,因此分子分母上按位进行的点操作可以相互抵消，即
$\hat y'=\frac{1}{(Q^TX){(Q^TX)}^T}(Q^TX)y'^T(Q^TX)\\$
因此
$\hat y'=\frac{\hat y-\mu_{y}}{\sigma_{y}}\\ F'=\frac{ESS'/f_E}{RSS'/f_R}=\frac{(N-n-1)\sum_{i=1}^N(\hat y'_i-\bar y')^2}{n\sum_{i=1}^N(y'_i-\hat y'_i)^2}=F\\ S'_\delta=\sqrt{RSS'/(N-n-1)}=\sqrt{\frac{\sum_{i=1}^N(y'_i-\hat y'_i)^2}{N-n-1}}=\frac{S_\delta}{\sigma_y}$

回归直线方程

求解得到的线性回归映射 $\hat{y}=\hat{\theta}^T Z$ 是自变量和因变量进行标准化后的结果，在病态线性回归问题中进行了降维处理，需转化推导出原线性回归方程。
$X'=(X-\vec\mu_x^T)\div {\vec\sigma_x^T}\\ y'=\frac{y-\mu_{y}}{\sigma_{y}}\\ Z=Q^TX'\\ \hat{y}'=\hat{\theta}^T Z$
将上述公式合并，得到如下线性回归方程
$\hat y'=\frac{\hat y-\mu_{y}}{\sigma_{y}} = \hat{\theta}^TQ^T(X-\vec\mu_x^T)\div {\vec\sigma_x^T}\\$
整理得
$\hat y = \hat\beta_0+\hat{\vec\beta}^TX=\hat\beta_0+\hat\beta_1 x_1+\hat\beta_2 x_2+\cdots+\hat\beta_n x_n\\ \text{where }\begin{cases} \hat{\vec\beta}^T = \hat{\theta}^TQ^T\div {\vec\sigma_x^T} \cdot \sigma_{y}\\ \hat\beta_0 = \mu_y-\hat{\theta}^TQ^T\cdot\vec\mu_x^T\div {\vec\sigma_x^T}\cdot \sigma_y \end{cases}$

求解置信区间

使用 $S_\delta=\sqrt{RSS/(N-n-1)}$ 近似地表示 $y$ 偏离回归平面的误差，于是，可以预测在各自变量 $x_1,x_2,\cdots,x_n$ 取固定的样本值时，预测值 $\hat y$ 将以 $(1-\alpha)$ 的概率落在以下区域
$(\hat y_0-Z_{\alpha/2}S_\delta,\hat y_0+Z_{\alpha/2}S_\delta)$
式中， $\hat y_0$ 是采用 $\hat\beta_0,\hat\beta_1,\hat\beta_2,\cdots,\hat\beta_n$ 作为最佳回归参数时的预测值， $Z_{\alpha/2}$ 是标准正态分布上 $\alpha/2$ 百分位点的值。