线性回归讲解

最新推荐文章于 2024-06-24 09:38:22 发布

Wumbuk

最新推荐文章于 2024-06-24 09:38:22 发布

阅读量1.1k

点赞数

文章标签：机器学习概率论深度学习

本文链接：https://blog.csdn.net/qq_48081868/article/details/120470536

版权

线性回归

一、首言
二、简单线性回归
总结

一、首言

回归分析统计方法研究变量之间的关系并且对其构建模型，回归的应用领域广泛，几乎是可以遍及所有的学科。
举个例子，如下图所示：
在这里插入图片描述
我们可以观察到，这些观测值的散点图，它清楚地表明了y与x之间的关系，能够看到所有观测的数据大概是落到了同一条直线上。上图画出了这条直线，但是我们知道的是这条直线其实并不完全准确。我们假设这条直线的方程为：
$y=\beta_0+\beta_1x$
式中， $\beta_0$ 为截距， $\beta_1$ 为斜率。但是，因为数据点并不是精确地落到了这条直线上，所以，我们对上一个方程进行修改，令y的观测值和直线上 $\beta_0+\beta_1x$ 之间的差值为误差 $\varepsilon$ ，因此，我们就有更加合理的模型为
$y=\beta_0+\beta_1x+\varepsilon$
我们称该方程为线性回归模型，习惯上将x称为自变量，y称为因变量；或者x称为预测变量或回归变量，y称为响应变量。
在使用回归分析的过程中，一个重要的目标就是估计回归模型中的未知参数，这一过程也称为用模型拟合数据。在回归分析的下一阶段就是模型适应性检验，模型适应性检验用来研究模型的适当程度，确定拟合质量的高低。
在进行数据收集的时候，我们可以使用如下的方法

基于历史数据的回顾性研究
观测性研究
实验设计

回归的用途

描述数据
参数估计
预测与评估
控制

二、简单线性回归

2.1 简单线性回归模型

简单线性回归模型为：
$y=\beta_0+\beta_1x+\varepsilon$
在式中，截距 $\beta_0$ 与斜率 $\beta_1$ 为未知常数, $\varepsilon$ 为随机误差项。假设误差项的均值为0，且其方差为 $\sigma^2$ 未知。此外通常假设方差是不相关的，不相关意味着一个误差的值不取决于其他误差的值。
换句话说，对于每一个x的可能值，存在一个y的概率分布，这一分布的均值为
$E(y|x)=\beta_0+\beta_1x$
方差为
$Var(y|x)=Var(\beta_0+\beta_1x+\varepsilon)=\sigma^2$
因此，y的均值是x的线性函数，然而y的方差不依赖x的取值。进一步来说，因为误差是不相关的，所以响应变量也是不相关的。参数 $\beta_0$ 和 $\beta_1$ 通常称为相关系数。

2.2 回归参数的最小二乘估计

参数 $\beta_0$ 和 $\beta_1$ 是未知的，所以我们需要进行估计。

2.2.1 $\beta_0$ 和 $\beta_1$ 的估计

使用最小二乘法来估计截距 $\beta_0$ 与斜率 $\beta_1$ ,也就是使估计 $\beta_0$ 与 $\beta_1$ 使得观测值 $y_i$ 和回归直线之间差值的平方和最小。由此我们可以可以写出
$y_i=\beta_0+\beta_1x_i+\varepsilon_i \qquad (i=1,2,...,n)$
我们将上面的式子称为样本回归模型，其中样本回归模型由n对数据 $y_i,x_i)(i=1,2,...,n)$ 写出，因此最小二乘准则为
$S(\beta_0,\beta_1)=\sum_{i=1}^n(y_i-\beta_0-\beta_1x_i)^2$
$\beta_0$ 与 $\beta_1$ 的最小二乘估计量分别为 $\hat{\beta_0}$ 与 $\hat{\beta_1}$ ,并且需要满足：
$\left.\dfrac{\partial S}{\partial\beta_0}\right|_{\hat{\beta_0},\hat{\beta_1}}=-2\sum_{i=1}^n(y_i-\hat{\beta_0}-\hat{\beta_1}x_i)=0$ 以及
$\left.\dfrac{\partial S}{\partial\beta_1}\right|_{\hat{\beta_0},\hat{\beta_1}}=-2\sum_{i=1}^n(y_i-\hat{\beta_0}-\hat{\beta_1}x_i)x_i=0$
化简上面的式子容易得到：
$n\hat{\beta_0}+\hat{\beta_1}\sum_{i=1}^nx_i=\sum_{i=1}^ny_i \\ \hat{\beta_0}\sum_{i=1}^nx_i+\hat{\beta_1}\sum_{i=1}^nx_i^2=\sum_{i=1}^ny_ix_i$
以上的方程称为 最小二乘正规方程，并且呢该正规方程的解为：
$\hat{\beta_0}=\bar{y}-\hat{\beta_1}\bar{x} \\ 以及\\ \hat{\beta_1}=\frac{\sum_{i=1}^ny_ix_i-\frac{(\sum_{i=1}^ny_i)(\sum_{i=1}^nx_i)}{n}}{\sum_{i=1}^nx_i^2-\frac{(\sum_{i=1}^nx_i)^2}{n}}$
式中， $\bar y=\frac{1}{n}\sum_{i=1}^ny_i$ 与 $\bar x==\frac{1}{n}\sum_{i=1}^nx_i$ 分别为 $x_i$ , $y_i$ 的平均值。因此 $\hat{\beta_0}$ , $\hat{\beta_1}$ 分别是截距和斜率的最小二乘估计量，所以简单回归分析模型拟合为
$\hat{y}=\hat{\beta_0}+\hat{\beta_1}x$
因为在上面的方程中有分母为 $x_i$ 的校正平方和，分子为 $x_i,y_i$ 的校正叉积和，所以我们可以将分母和分子用更加紧凑的记号记为：
$S_{xx}={\sum_{i=1}^nx_i^2-\frac{(\sum_{i=1}^nx_i)^2}{n}}=\sum_{i=1}^n(x_i-\bar x)^2\\ S_{xy}=\sum_{i=1}^ny_ix_i-\frac{(\sum_{i=1}^ny_i)(\sum_{i=1}^nx_i)}n=\sum_{i=1}^ny_i(x_i-\bar x)\\$
因此，我们可以将方程记为
$\hat{\beta_1}=\frac{S_{xy}}{S_{xx}}$
响应变量的值 $y_i$ 和其对应的拟合值 $\hat{y_i}$ 之间的差值为残差。数学上第i个残差为：
$e_i=y_i-\hat{y_i}=y_i-({\hat{\beta_0}+\hat{\beta_1}x_i}) \qquad (i=1,2,3...n)$
残差在研究模型的适应性，以及在探测是否违背基本假设中扮演着重要的角色。

2.2.2 最小二乘估计量的性质与回归模型拟合

最小二乘估计量 $\hat{\beta_0}$ , $\hat{\beta_1}$ 具有若干重要的性质。首先呢，我们容易发现 $\hat{\beta_0}$ , $\hat{\beta_1}$ 是观测值 $y_i$ 的线性组合。举例来说，
$\hat{\beta_1}=\frac{S_{xy}}{S_{xx}}=\sum_{i=1}^nc_iy_i$
在式中， $c_i=(x_i-\bar{x})/S_{xx}$

最小二乘法估计量 $\hat{\beta_0}$ , $\hat{\beta_1}$ 式模型参数 ${\beta_0}$ , ${\beta_1}$ 的无偏估计量（如果需要证明，请留言。）
高斯-马尔可夫定理：对于满足假设 $E(\varepsilon)=0,Var(\varepsilon)=\sigma ^2$ 以及误差不相关的回归模型方程 $y_i=\beta_0+\beta_1x_i+\varepsilon_i \qquad (i=1,2,...,n)$ ，最小二乘法的估计量是无偏的，同时相比其他同为 $y_i$ 线性组合的无偏估计量，最小二乘法估计量的方差最小。通常称最小二乘法估计量是 最佳线性无偏估计量，其中“最佳”意味着方差最小。
所有含有截距项 $\beta_0$ 的回归模型其残差之和恒为0，也就是说
$\sum_{i=1}^n(y_i-\hat{y_i})=\sum_{i=1}^ne_i=0$
观测值 $y_i$ 的和总是恒等于拟合值 $\hat{y_i}$ 的和，即
$\sum_{i=1}^ny_i=\sum_{i=1}^n\hat{y_i}$
最小二乘回归直线总是穿过数据的中点 $(\bar{y},\bar{x})$
以对应回归变量值为权重的残差之和恒等于0，也就是说
$\sum_{i=1}^nx_ie_i=0$
以对应拟合值为权重的残差之和也恒等于0，也就是说
$\sum_{i=1}^ny_ie_i=0$

2.2.3 $\sigma^2$ 的估计

假设检验以及构造与回归模型有关的区间估计都需要 $\sigma^2$ 的估计值。理想情况下需要这一估计值与模型拟合的适应性无关，这只有在对至少一个x值有若干个y的观测值，或者能够获得与 $\sigma^2$ 的先验信息时，才是有可能的。如果不能使用上面的方法得到 $\sigma^2$ 的估计值，就要通过残差平方和，即 误差平方和 来求得：
$SS_残=\sum_{i=1}^ne_i^2=\sum_{i=1}^n(y_i-\hat{y_i})^2$
将 $\hat{y_i}=\hat{\beta_0}+\hat{\beta_1}x_i$ 代入方程，我们得到：
$SS_残=\sum_{i=1}^n(y_i-(\hat{\beta_0}+\hat{\beta_1}x_i))^2\\= \sum_{i=1}^n(y_i-(\bar{y}-\bar{x}\hat\beta_1+\hat{\beta_1}x_i))^2 \\ \sum_{i=1}^ny_i^2-n\bar{y}^2-\hat{\beta}_1\sum_{x=1}^ny_i(x_i-\bar{x})^2 \\= \sum_{i=1}^ny_i^2-n\bar{y}^2-\hat{\beta}_1S_{xy}$
而
$\sum_{i=1}^ny_i^2-n\bar{y}^2=\sum_{i=1}^n(y_i-\bar y)^2=SS_总$
恰是响应变量观测值的校正平方和，所以，
$SS_残=SS_总-\hat\beta_1S_{xy}$
残差平方和有n-2个自由度，这是因为两个自由度与得到 $\hat y_i$ 的估计值 $\hat{\beta_0}$ , $\hat{\beta_1}$ 相关。另外我们可以证明 $SS_残$ 的期望值为 $E(SS_残)=(n-2)\sigma^2$ ,所以方差的无偏估计量为：
$\sigma^2=\frac{SS_残}{n-2}=MS_残$
在上式中， $MS_残$ 为残差均方， $\sigma^2$ 的平方根有时候称为回归标准误差，回归标准误差与响应变量y具有相同的单位。
因为 $\sigma^2$ 取决于残差平方和，所以任何模型误差的假设的违背或者对模型形式的误设都可能严重影响 $\sigma^2$ 的估计值 $\hat\sigma^2$ 的实用性，因为 $\hat\sigma^2$ 是由回归模型的残差获得，所以称 $\sigma^2$ 的估计值是模型依赖的。

2.2.4 简单线性回归的另外一种形式

$\hat{y}=\bar{y}+\hat{\beta_1}(x-\bar x)$

2.3 斜率与截距的假设检验

我们假设：误差服从独立正态分布，且均值为0，方差为 $\sigma^2$ ，简写为NID(0, $\sigma^2$ )

2.3.1 使用t检验

假设希望检验斜率等于常数这一个假设，称这一假设为 $\beta_{10}$ ，恰当的假设为
$H_0:\beta_1=\beta_{10} \qquad H_1:\beta_1 \neq\beta_{10}$
式中设定了一个双侧检验。由于误差 $\varepsilon _i$ 服从NID(0, $\sigma^2$ )分布，所以观测值 $y_i$ 服从NID( $\beta_0+\beta_1x_i$ , $\sigma^2$ )分布。 $\hat{\beta_1}$ 是观测值的线性组合，所以使用2.2.2我们知道 $\hat{\beta_1}$ 服从均值为 $\beta_1$ ，方差为 $\sigma^2/S_{xx}$ 的正态分布。所以，如果 $H_0$ 为真，那么一定有统计量：
$Z_0=\frac{\hat\beta_1-\beta_{10}}{\sqrt{\sigma^2/S_{xx}}}$
服从N(0,1)分布。如果 $\sigma$ 已知，我们就可以使用 $Z_0$ 检验假设方程了，然而，一般该参数都是未知的。我们已经看到 $MS_残$ 是 $\sigma^2$ 的无偏估计量。并且容易验证 $n-2)MS_残$ 服从 $X^2_{n-2}$ 分布，且 $MS_残$ 与 $\hat{\beta_1}$ 独立，所以给出的t统计量的定义为：
$t_0=\frac{\hat{\beta_1-\beta_{10}}}{\sqrt{MS_残/S_{xx}}}$
如果假设 $H_0$ 为真，那么 $t_0$ 服从 $t_{n-2}$ 分布，且其自由度就是 $MS_残$ 的自由度。所以在检验的时候，检验程序计算了 $t_0$ ，将来自上述方程的 $t_0$ 的观测值与 $t_{n-2}$ 分布 $(t_{\alpha/2,n-2})$ 上的 $\alpha/2$ 分位点进行比较。
如果
$|t_0|>t_{\alpha/2,n-2}$
这一程序将拒绝原假设，另外P值方法也可以用于决策。
方程中检验统计量 $t_0$ 的分母通常称为斜率的估计标准误差，或者更加精简地称为斜率的标准误差，也就是说
$se(\hat{\beta_1})=\sqrt{\frac{MS_残}{S_{xx}}}$
因此，我们可以将 $t_0$ 写成：
$t_0=\frac{\hat{\beta}_1-\beta_{10}}{se(\hat{\beta_1})}$
同理，可以处理用于截距的假设检验。为了检验
$H_0: \beta_0=\beta_{00}, H_1:\beta_0 \neq \beta_{00}$
要使用检验统计量：
$t_0=\frac{\hat{\beta_0}-\beta_{00}}{\sqrt{MS_残(1/n+\bar x^2/S_{xx})}}=\frac{\hat{\beta_0}-\beta_{00}}{se(\hat{\beta^0})}$
式中， $se(\bar\beta_0)={\sqrt{MS_残(1/n+\bar x^2/S_{xx})}}$ 为截距的标准误差。如果 $|t_0|>t_{\alpha/2,n-2}$ ，则拒绝假设 $H_0$

2.4 简单线性回归的区间估计

2.5 新观测值的预测

回归模型的一个重要应用就是预测特定水平的回归变量x对应的新观测值y,如果 $x_0$ 是所感兴趣的回归变量的值，那么
$\hat{y_0}=\hat{\beta_0}+\hat{\beta_1}x_0$
是响应变量 $y_0$ 新值点的估计。
现在考虑如何得到这一未来观测值 $y_0$ 的区间估计。因为在 $x=x_0$ 处响应变量的均值的置信区间是对y均值的区间估计，不是对来自分布的关于未来观测值的概率表述，所以运用响应变量均值的区间估计方法并不合适。下面研究未来观测值 $y_0$ 的预测区间。
注意随机变量
$\psi=y_0-\hat{y_0}$
因为未来观测值 $y_0$ 与 $\hat{y_0}$ 独立，所以其服从均值为0，方差为 $Var(\psi)=Var(y_0-\hat{y_0})=\sigma^2[1+\frac{1}{n}+\frac{(x_0-\bar x)^2}{S_{xx}}]$ 的正态分布。如果使用 $\hat{y_0}$ 来预测 $y_0$ ，那么我们再使用t分布，对于 $x_0$ 处未来的观测值的 $100\times (1-\alpha) \%$ 预测区间为
在这里插入图片描述
在该预测区间中，在 $x_0=\bar x$ 处宽度最小，并且随着 $|x_0-\bar x|$ 的增大而变宽，同时呢，通过对比，我们观察到 $x_0$ 的预测区间总是比 $x_0$ 的置信区间宽，这是因为预测区间既和来自模型拟合的误差有关，也和未来观测值的误差有关。

2.6 决定系数

统计量
$R'=\frac{SS_回}{SS_总}=1-\frac{SS_残}{SS_总}$
称为决定系数。由于 $SS_总$ 是对未考虑回归变量x影响的y变异性的考量，而 $SS_残$ 是对考虑x后剩余的y的变异性的度量，所以 $R^2$ 称为由回归变量x解释的变异性的性质，并且该变量的取值范围是[0,1]。该值越接近1，就表示大部分的y的变异性由回归模型解释。要注意的是，决定系数的大小不是回归直线斜率大小的度量。

2.7 极大似然估计

最小二乘法可以用于线性回归模型的参数估计，产生最佳线性无偏估计量，此时不对误差 $\varepsilon$ 的分布形式做任何的假设。最小二乘法可以产生 $\beta_0$ 和 $\beta_1$ 的最佳线性无偏估计量，其他统计过程，比如假设检验与置信区间构造，都假设误差服从正态分布。如果误差的分布形式已知，那么我们就可以使用另外一种参数估计方法——极大似然法
考虑数据 $y_i,x_i),i=1,2,...,n.$ 假设回归模型中的误差服从 $NID(0,\sigma^2)$ ，那么样本的观测值 $y_i$ 服从均值为 $\beta_0+\beta_1x_i$ ，方差为 $\sigma^2$ 的正态分布，并且独立。似然函数由观测值的联合分布得到。如果考虑给定的观测值的联合分布，并且参数 $\beta_0,\beta_1及\sigma^2$ 为未知参数，那么就有极大函数，对于误差服从正态分布的简单线性回归模型而言，其似然函数为：
$L(y_i,x_i,\beta_0,\beta_1,\sigma^2)=\prod_{i=1}^n (2\pi \sigma^2)^{-1/2}exp[-\frac{1}{2\sigma^2}(y_i-\beta_0-\beta_1x_i)^2] \\= (2\pi \sigma^2)^{-1/2}exp[-\frac{1}{2\sigma^2}\sum_{i=1}^n(y_i-\beta_0-\beta_1x_i)^2]$
极大似然估计量的参数值记为 $\tilde{\beta_0},\tilde{\beta_1},\tilde{\sigma}^2$ .最大化L或与等价的lnL为：
$lnL(y_i,x_i,\beta_0,\beta_1,\sigma^2)=-(\frac{n}{2})ln2\pi-(\frac{n}{2})ln\sigma^2-\frac{1}{2\sigma^2}\sum_{i=1}^n(y_i-\beta_0-\beta_1x_i)^2$
而，最大似然估计量 $\tilde{\beta_0},\tilde{\beta_1},\tilde{\sigma}^2$ 必须满足：
$\left.\dfrac{\partial lnL}{\partial\beta_0}\right|_{\tilde{\beta_0},\tilde{\beta_1},\tilde{\sigma}^2}=\frac{1}{\tilde{\sigma}^2}\sum_{i=1}^n(y_i-\tilde{\beta_0}-\tilde{\beta_1}x_i)=0\\ \left.\dfrac{\partial lnL}{\partial\beta_1}\right|_{\tilde{\beta_0},\tilde{\beta_1},\tilde{\sigma}^2}=\frac{1}{\tilde{\sigma}^2}\sum_{i=1}^n(y_i-\tilde{\beta_0}-\tilde{\beta_1}x_i)x_i=0\\ \left.\dfrac{\partial lnL}{\partial\sigma^2}\right|_{\tilde{\beta_0},\tilde{\beta_1},\tilde{\sigma}^2}=-\frac{n}{2\tilde{\sigma}^2}+\frac{1}{2\tilde{\sigma}^4}\sum_{i=1}^n(y_i-\tilde{\beta_0}-\tilde{\beta_1}x_i)^2=0\\$
通过解上面的方程我们得到了极大似然估计量为
$\tilde{\beta_0}=\bar y-\tilde{\beta_1}\bar x \\ \tilde{\beta_1}=\frac{\sum_{i=1}^n y_i(x_i-\bar x)}{\sum_{i=1}^n(x_i-\bar x)^2}\\ \tilde{\sigma}^2=\frac{\sum_{i=1}^n(y_i-\tilde{\beta_0}-\tilde{\beta_1}x_i)^2}{n}$
注意，截距与斜率的极大似然估计量 $\tilde{\beta_0},\tilde{\beta_1}$ 都与其最小二乘估计量相同。同时 $\tilde{\sigma}^2$ 是 $\sigma^2$ 的有偏估计量，并且有偏估计量 $\tilde{\sigma}^2$ 和无偏估计量 $\hat{\sigma}^2$ 的关系为 $\tilde{\sigma}^2=[(n-1)/n]\sigma^2$ ，当n为中等程度的大小时，偏倚较小。一般情况下，我们使用的都是无偏估计量 $\hat{\sigma}^2$
一般情况下，最大似然估计有比最小二乘法更好的统计性质。极大似然估计是无偏的，相比其他的无偏估计量，该估计量的方最小。极大似然估计是一致估计量，也是一组充分统计量。
但是另一方面呢，极大似然估计比最小二乘法估计量需要更为严格的统计假设。最小二乘估计量只需二阶矩阵假设，而最大似然估计量需要关于分布的完整假设。在这种情况下，随机误差服从正态分布，其二阶矩与最小二乘法所需要的假设相同。