线性回归详解-CSDN博客

本文链接：https://blog.csdn.net/qq_52737544/article/details/115010754

文章目录

线性回归

线性回归

概念

线性回归（linear regression） 是一种简单的指导学习方法，它假设 $Y$ 和 $X_1,X_2,\cdots,X_p$ 的关系是线性的。

真正的回归函数永远都不是线性的。

虽然线性回归看起来过于简单，但它在概念上和实际上都非常有用。

简单线性回归

$Y=\beta_0+\beta_1X+\varepsilon$ 其中 $\beta_0,\beta_1$ 是两个未知的量，被称为模型的系数（coefficients）或参数（parameters），分别代表截距（intercept）和斜率（slope）。 $\varepsilon$ 为误差项。

从训练数据中估计出模型的系数，我们可以得到
$\hat{y}=\hat{\beta}_0+\hat{\beta}_1x$ 其中 $\hat{y}$ 表示在 $X = x$ 的基础上对 $Y$ 的预测。

估计系数（最小二乘）

令 $\hat{y}_i=\hat{\beta}_0+\hat{\beta}_1x_i$ 为根据 $X$ 的第i个值预测的 $Y$ ， $e_i=y_i-\hat{y}_i$ 表示第i个残差（residual）。

我们定义残差平方和（residual sum of squares ,RSS）：
$RSS=e_1^2+e_2^2+\cdots+e_n^2\\RSS=(y_1-\hat{\beta}_0-\hat{\beta}_1x_1)^2+(y_2-\hat{\beta}_0-\hat{\beta}_1x_2)^2+\cdots+(y_n-\hat{\beta}_0-\hat{\beta}_1x_n)^2$
最小二乘法选择 $\beta_0,\beta_1$ 来使RSS最小。可以计算出使RSS最小的参数估计值为：
$\hat{\beta}_1=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{x})^2}\\\hat{\beta}_0=\bar{y}-\hat{\beta}_1\bar{x}\\其中，\bar{y}=\frac{1}{n}\sum_{i=1}^ny_i，\bar{x}=\frac{1}{n}\sum_{i=1}^nx_i，为样本均值。$

评估系数估计值的准确性

估计值的标准误差（standard error） 反映了它在重复采样下的变化。
$SE(\hat{\beta}_1)=\frac{\sigma^2}{\sum_{i=1}^n(x_i-\hat{x})^2}\ \ ,\ \ SE(\hat{\beta}_0)=\sigma^2[\frac{1}{n}+\frac{\hat{x}^2}{\sum_{i=1}^n(x_i-\hat{x})^2}]\\其中，\sigma^2=Var(\varepsilon)$
一般情况下， $\sigma^2$ 是未知的，但可以从数据中估计出来，对 $\sigma^2$ 的估计被称为残差标准误（residual standard error），由下式定义。
$RSE^2=RSS/(n-2)$ 标准误差可用于计算置信区间（confidence intervals）。95%的置信区间被定义为一个一个取值范围：该范围有95%的概率会包含未知参数的真实值。对于线性回归模型， $\beta_1$ 的95%置信区间为：
$\hat{\beta}_1\pm 2*SE(\hat{\beta}_1)$ 也就是，下述区间
$[\hat{\beta}_1-2*SE(\hat{\beta}_1),\hat{\beta}_1+2*SE(\hat{\beta}_1)]$ 有大约95%的可能会包含 $\beta_1$ 的真实值。

标准误差也可用来对系数进行假设检验（Hypothesis testing）。最常用的假设检验包括对零假设（null hypothesis）和备择假设（alternative hypothesis） 进行检验。

零假设： $H_0$ ：X和Y之间没有关系

备择假设： $H_1$ ：X和Y之间有一定的关系

数学上就相当于检验
$H_0:\beta_1=0\\H_a:\beta_1\neq0$ 为了检验零假设，我们计算t统计量
$t=\frac{\hat{\beta}_1-0}{SE(\hat{\beta}_1)}$ 上式服从自由度为n-2的t分布。

假设 $\beta_1=0$ ，计算任意观测值大于等于 $∣ t ∣$ 的概率十分简单，称这个概率为p值（p-value）。如果看到一个很小的p值，就能拒绝原假设，推断出预测变量和响应变量间存在关联。

评价模型的准确性

判断线性回归的拟合质量通常使用两个相关的量：**残差标准误（residual standard error,RSE）**和 $R^2$ 统计量。

我们计算残差标准误：
$RSE=\sqrt{\frac{1}{n-2}RSS}=\sqrt{\frac{1}{n-2}\sum_{i=1}^n(y_i-\hat{y_i})^2}\\其中，RSS=\sum_{i=1}^n(y_i-\hat{y_i})^2$
RSE越小，说明模型得到的预测值非常接近真实值，拟合程度较好。

$R^2$ 统计量：
$R^2=\frac{TSS-RSS}{TSS}=1-\frac{RSS}{TSS}$
其中， $TSS=\sum_{i=1}^n(y_i-\bar{y})^2$ 是总平方和（residual sum of squares）。

相关性 $r = C o r (X, Y)$ ：
$r=Cor(X,Y)=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2}\sqrt{\sum_{i=1}^n(y_i-\bar{y})^2}}$
r可以代替 $R^2$ 评估线性模型的拟合度。在简单线性回归模型中， $R^2=r^2$ 。

多元线性回归

$Y=\beta_0+\beta_1X_1+\beta_2X_2+\cdots+\beta_pX_p+\varepsilon$ 其中， $X_j$ 代表第 $j$ 个预测变量， $\beta_j$ 代表第 $j$ 个预测变量和响应变量之间的关联。 $\beta_j$ 可解释为在所有其他预测变量保持不变（holding all other predictors fifixed） 的情况下， $X_j$ 增加一个单位对 $Y$ 产生的平均（average） 效果。

预测变量之间的相关性会导致以下问题：所有系数的方差往往会增加，有时也会急剧增加；解释会变得危险——当 $X_j$ 改变时，其他一切都会改变。

对于观测数据，应避免因果关系（Claims of causality）。

估计回归系数

对于给定的回归系数 $\hat{\beta}_0,\hat{\beta}_1,\cdots,\hat{\beta}_p$ ，可以用如下公式进行预测：
$\hat{y}=\hat{\beta}_0+\hat{\beta}_1x_1+\hat{\beta}_2x_2+\cdots+\hat{\beta}_px_p$ 多元线性回归中的参数也用最小二乘法估计，使残差平方和RSS最小：
$RSS=\sum_{i=1}^n(y_i-\hat{y}_i)^2=\sum_{i=1}^n(y_i-\hat{\beta}_0-\hat{\beta}_1x_{i1}-\hat{\beta}_2x_{i2}-\cdots--\hat{\beta}_px_{ip})^2$

一些重要问题

1、预测变量 $X_1,X_2,\cdots,X_p$ 中是否至少有一个可以用来预测响应变量？

在有 $p$ 个预测变量的多元回归模型中，我们要检验所有的回归系数是否均为零，即 $\beta_1=\beta_2=\cdots=\beta_p=0$ 是否成立：
$H_0：\beta_1=\beta_2=\cdots=\beta_p=0\\H_a：至少有一个\beta_j\neq0$ 可以用F统计量：
$F=\frac{(TSS-RSS)/p}{RSS/(n-p-1)},服从F_{p,n-p-1}$ F大于临界值时，拒绝原假设。

2、选定重要变量

最直接的方法称为所有子集（all subsets）或最佳子集（best subsets） 回归：我们计算适合所有可能子集的最小二乘值，然后根据一些平衡训练误差和模型大小的标准在它们之间进行选择。然而，我们通常不能检查所有可能的模型。

向前选择（Forward selection）

从零模型（null model）——只含有截距但不含预测变量的模型开始，拟合p个简单线性回归，并在零模型中添加能使RSS最小的变量。然后再加入一个新变量，得到新的双变量模型，加入的变量是使新模型的RSS最小的变量。继续持续此过程，直到满足某些停止规则为止，比如当所有剩余变量的p值都高于某个阈值时。

向后选择（Backward selection）

先从包含所有变量的模型开始，删除p值最大的变量——统计学上最不显著的变量。拟合完包含（p-1）个变量的新模型后，再删除p值最大的变量。此过程持续到满足某种停止规则为止，例如，当所有剩余变量的p值均低于某个阈值时，停止删除变量。

模型选择

Mallow’s统计量 Cp、赤池信息量准则（Akaike information criterion，AIC)、贝叶斯信息准则（Bayesian information criterion，BIC）、调整R方（adjusted $R^2$ ）和交叉检验（Cross-validation，CV）。

3、模型拟合

$R^2、RSE$
$RSE=\sqrt{\frac{1}{n-p-1}RSS}$

回归模型中的其他注意事项

定性预测变量（Qualitative Predictors）

一些预测变量不是定量的而是定性的。这些也被称为分类预测因子或因子变量。

二值预测变量

调查男女信用卡债务差异，忽略其他变量，创造一个新的变量
$x_i=\begin{cases}1\ \ \ 女性\\0\ \ \ 男性\end{cases}$ 并在回归方程中使用这个变量：
$y_i=\beta_0+\beta_1x_i+\varepsilon_i=\begin{cases}\beta_0+\beta_1+\varepsilon_i\ \ \ 女性\\\beta_0+\varepsilon_i\ \ \ 男性\end{cases}$ $\beta_1$ 是男性和女性之间信用卡债务的平均差异。

定性变量有两个以上的水平

可以创造更多的虚拟变量。例如，对种族创建两个变量：
$x_{i1}=\begin{cases}1\ \ \ 亚洲人\\0\ \ \ 非亚洲人\end{cases}\\x_{i2}=\begin{cases}1\ \ \ 白种人\\0\ \ \ 非白种人\end{cases}$ 将这两个变量用于回归方程中：
$y_i=\beta_0+\beta_1x_{i1}+\beta_2x_{i2}+\varepsilon_i=\begin{cases}\beta_0+\beta_1+\varepsilon_i\ \ \ 亚洲人\\\beta_0+\beta_2+\varepsilon_i\ \ \ 白种人\\\beta_0+\varepsilon_i\ \ \ \ \ \ \ \ \ \ \ \ 非裔美国人\end{cases}$ dummy variable的数量总是比水平数少1。没有相对应的dummy variable的水平——上例是非裔美国人——被称为基准水平（baseline）。

线性模型的扩展

交互作用（interactions）

也叫做协同（synergy） 效应。

考虑在模型中加入交互项：
$Y=\beta_0+\beta_1X_1+\beta_2X_2+\beta_3X_1X_2+\varepsilon$ 上式可以写成
$Y=\beta_0+(\beta_1+\beta_3X_2)X_1+\beta_2X_2+\varepsilon=\beta_0+\tilde{\beta}_1X_1+\beta_2X_2+\varepsilon$ 其中 $\tilde{\beta}_1=\beta_1+\beta_2X_2$ 。调整 $X_2$ 的值将改变 $X_1$ 对 $Y$ 的影响。检验： $H_0:\beta_3=0，H_A:\beta_3\neq0$

少数情况下，交互项的p值很小，但相关的主效应的p值却不然。

实验分层原则（hierarchical principle）：如果模型中含有交互项，那么即使主效应的系数的p值不显著，也应包括在模型中。

定性变量和定量变量之间的相互作用

不含交互项的模型：
$balance_i\approx\beta_0+\beta_1*income_i+\begin{cases}\beta_2\ \ \ 学生\\0\ \ \ 非学生\end{cases}=\beta_1*income_i+\begin{cases}\beta_0+\beta_2\ \ \ 学生\\\beta_0\ \ \ \ \ \ \ \ \ \ \ \ 非学生\end{cases}$ 含交互项的模型：
$balance_i\approx\beta_0+\beta_1*income_i+\begin{cases}\beta_2+\beta_3*income_i\ \ \ 学生\\0\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ 非学生\end{cases}=\begin{cases}(\beta_0+\beta_2)+(\beta_1+\beta_3)*income_i\ \ \ 学生\\\beta_0+\beta_1*income_i\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ 非学生\end{cases}$

非线性关系

多项式回归（polynomial regression）

例如二次方（quadratic）：
$mpg=\beta_0+\beta_1*horsepower+\beta_2*horsepower^2+\varepsilon$

潜在的问题

（1）非线性的响应——预测关系（nonlinaerity of response-predictor relationship）：可用残差图（residual plot） 识别非线性。

（2）误差项自相关（correlation of error term）：常出现在时间序列数据中，会低估标准误与p值。

（3）误差项方差非恒定（non-constant variance of error term）：存在异方差性。

（4）离群点（outlier）： $y_i$ 远离模型预测值的点。

（5）高杠杆点（high-leverage point）：观测点 $x_i$ 是异常的

杠杆统计量：
$h_i=\frac{1}{n}+\frac{(x_i-\bar{x})^2}{\sum_{i'=1}^n(x_{i'}-\bar{x})^2}$
如果给定观测的杠杆统计量大大超过(p+1)/n，那么可以怀疑对应点有较高的杠杆作用。

（6）共线性（collinearity）：

方差膨胀因子（variance inflation factor,VIF）：
$VIF(\hat{\beta}_j)=\frac{1}{1-R_{X_j|X_{-j}}^2}$
其中 $R_{X_j|X_{-j}}^2$ 是 $X_j$ 对所有预测变量回归的 $R^2$ 。如果该值接近于1，那么存在共线性，VIF会很大。