[译]回归分析的基本假设

最新推荐文章于 2024-05-27 23:40:33 发布

sam-X

最新推荐文章于 2024-05-27 23:40:33 发布

阅读量1.5w

点赞数 1

分类专栏：机器学习文章标签：回归分析回归假设

机器学习专栏收录该内容

30 篇文章 3 订阅

订阅专栏

原文地址：《Going Deeper into Regression Analysis with Assumptions, Plots & Solutions》

引言

回归分析标志着预测建模的第一步.毫无疑问，它很容易实现，而且它的参数不会造成任何混乱，但是仅仅运行一行代码并不能解决问题.不只是看 $R^2$ 和MSE，回归能说明更多的问题.

为了模型效果的提升，必须首先了解回归假设以及当假设被违反时如何修正它们.

回归假设

回归是一种参数方法，参数意味着模型需要为了分析需求对数据做出一定的假设.由此，当数据不再满足时，它很难得出较好的结果.

线性性可加性

假设因变量为 $Y$ ，自变量为 $X_1$ ， $X_2$ ，则回归分析的默认假设为 $Y=b+a_1X_1+a_2X_2+\epsilon$ .
线性性： $X_1$ 每变动一个单位， $Y$ 相应变动 $a_1$ 个单位，与 $X_1$ 的绝对数值大小无关.
可加性： $X_1$ 对 $Y$ 的影响是独立于其他自变量（如 $X_2$ ）的.

影响

模型将无法很好的描述变量之间的关系，极有可能导致很大的泛化误差.

检查方法

通过查看其残差值*vs拟合值*的图，能够清晰地表示出数据中的多项式.相较于图一（残差随机分布），图二的残差明显呈现了某种二次型趋势，说明回归模型没有抓住数据的某些非线性特征.

解决办法

通过对 $X$ 做非线性变换改善，如 $\log(X),\sqrt X or X^2$ .

无自相关性

残差项之间不应该相关.违反这一原则的被称为自相关性.

影响

通常发生在时间序列里面，后一项依赖于前一项.当自相关性发生的时候，我们预测值的标准差往往比真实的小，进而会导致置信区间变窄.同时，较低的标准差会导致P值较小，这会让我们得出错误的统计显著的参数.

例如，设没有自相关性的情况下，自变量 $X$ 的系数为15.02，而标准差为2.08。假设同一样本是有自相关性的，测得的标准差可能会只有1.20，所以置信区间也会从(12.94,17.10)缩小到(13.82,16.22).

检查办法

通过Durbin – Watson (DW)统计公式计算.

D W = \frac{\sum_{t = 2}^{T} (e_{t} - e_{t - 1})^{2}}{\sum_{t = 1}^{T} e_{t}^{2}}

$DW=\frac{\sum_{t=2}^T(e_t-e_{t-1})^2}{\sum_{t=1}^Te_t^2}$

该统计量的值落在(0,4)内，DW=2意味着没有自相关性，0

独立性

自变量之间应该相互独立，违反这一原则被称为多重共线性.

影响

违反会导致模型不能正确找出自变量之间的关系.同时会导致标准差偏高，因此会导致置信区间变宽以至于无法对参数进行精确估计.

检查办法

首先，可以通过观察自变量的散点图（Scatter Plot）来进行初步判断.

然后，针对可能存在多重共线性性的变量，我们观察其方差膨胀系数（VIF–Variance Inflation Factor）.
假设回归模型为:

Y = β 0 + β 1 X 1 + β 2 X 2 + \dots + β k X k + ε

$Y=\beta_0+\beta_1 X_1 + \beta_2 X_2 +\cdots+\beta_k X_k + \varepsilon$
对于变量

Xj X j $X_j$ ，可证得，其估计系数

βj β j $\beta_j$ 的方差为：

v a r^(β^j) = s 2 ( n - 1 ) v a r ^ ( X j ) \cdot 1 1 - R 2 j

$\hat{var}(\hat{\beta}_j)=\frac{s^2}{(n-1)\hat{var}(X_j)}\cdot\frac{1}{1-R_j^2}$

其中其中唯一与其它自变量有关的值是 $R^2_j$ ， $R^2_j$ 是 $X_j$ 关于其它自变量回归的残差：

X j = β 0 + β 1 X 1 + β 2 X 2 + \dots + β j - 1 X j - 1 + β j + 1 X j + 1 + \dots + β k X k + ε

$X_j=\beta_0+\beta_1 X_1 + \beta_2 X_2 +\cdots + \beta_{j-1} X_{j-1} + \beta_{j+1} X_{j+1} +\cdots + \beta_k X_k + \varepsilon$

$\frac{1}{1-R_j^2}$ 便称作VIF，若VIF<3，说明该变量基本不存在多重共线性性问题，若VIF>10，说明问题比较严重.

误差项的方差应该是常数

这一现象被称为同方差性，违反的则被称为异方差性.

影响

通常异方差由异常值导致，在回归模型中，这些异常值可能会被给予过大的权重，以至于影响模型的准确性，同时会导致置信区间相较于正常情况不确定地偏大或者偏小.

检查办法

可以使用残差VS拟合值，如果异方差存在，会在图中看到明显的漏斗状，观察标准化后的残差VS估计值图，如果异方差存在，则图中应该可以看到明显的趋势性.同时也可以使用Breusch-Pagan / Cook–Weisberg test.

残差VS拟合值

解决办法

对 $Y$ 进行变换，如 $\log(Y) or \sqrt Y$ ，也可以使用加权最小二乘法来解决这个问题.

误差项应该是高斯分布

影响

如果违反了这一假设，置信区间也会不确定地变大或者变小.

检查办法

可以通过查看QQ图（如下），如果图中的散点呈直线状表示数据为高斯分布，否则为非高斯分布，还有另外的方法如通过Kolmogorov-Smirnov test, Shapiro-Wilk test进行检查.

解决办法

$X$ 或 $Y$ 的非线性变换会改善违例情况.

本作品采用知识共享署名-非商业性使用-相同方式共享 3.0 中国大陆许可协议进行许可。

sam-X

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
[译]回归分析的基本假设

原文地址：《Going Deeper into Regression Analysis with Assumptions, Plots &amp; Solutions》引言回归分析标志着预测建模的第一步.毫无疑问，它很容易实现，而且它的参数不会造成任何混乱，但是仅仅运行一行代码并不能解决问题.不只是看R2R2R^2和MSE，回归能说明更多的问题.为了模型效果的提升，必须首先了解回归...
复制链接

扫一扫