一元线性回归公式推导及证明

斐邪

已于 2022-09-29 23:19:08 修改

阅读量7.5k

点赞数 6

文章标签：线性回归算法机器学习

于 2022-09-20 16:21:16 首次发布

本文链接：https://blog.csdn.net/qq_32463765/article/details/126950578

版权

一元线性回归公式推导及证明

回归方程的架构

对于二维数据 $x_{i},y_{i})$ 进行建模，通过回归方程 $y_{i}=\beta_{0}+\beta_{1}x_{i}+u$ 描述其数据关系。求该方程需要获取未知参数 $\hat{\beta_0}$ 和 $\hat{\beta_1}$

有以下两种方式可以推导参数的解法

证明1.1矩估计求解 $\hat{\beta_0}$ 和 $\hat{\beta_1}$

矩估计方法依赖于零条件均值假设： $E (u ∣ x) = 0$ 该假设的意思是给定 $x$ ，通过回归方程所得的 $\hat{y}$ 与实际 $y$ 的误差，平均值为0。也就是说因果关系上， $y$ 只受到 $\beta_0$ 和 $\beta_1$ 的影响。

根据零条件均值可以推出两个公式。 $\begin{equation*} \begin{aligned} E(u)&=E(E(u|x))=0\\ \end{aligned} \end{equation*}\\ \begin{equation*} \begin{aligned} cov(x,u)&=E(xu)-E(x)E(u)\\ &=E(xu)\\ &=E(E(xu|x))\\ &=E(xE(u|x))\\ &=0 \end{aligned}\end{equation*}$ 这是求解未知参数的关键。

另外已知
$\begin{equation*} \begin{split} y_i&=\beta_0+\beta_1x+u\phantom{\;=====\;}\tag{1}\\ \end{split} \end{equation*} \\\begin{equation*} \begin{split} \bar{y}&=\beta_0+\beta_1\bar{x}+\bar{u}\phantom{\;=====;\;}\tag{2} \end{split} \end{equation*}$
由 $(1) - (2)$ 得 $\begin{equation*} \begin{split} y_i-\bar{y}=\beta_1(x-\bar{x})+(u-\bar{u}) \end{split} \end{equation*}\\ \begin{equation*} \begin{split} (x-\bar{x})(y_i-\bar{y})=\beta_1(x-\bar{x})^2+(u-\bar{u})(x-\bar{x}) \end{split} \end{equation*}$
遍历所有的 $i = 1, 2, 3....$ ，并求和 $\begin{equation*} \begin{split} \frac{1}{N}\sum_{i=1}^N(x-\bar{x})(y_i-\bar{y})=\frac{1}{N}\sum_{i=1}^N\beta_1(x-\bar{x})^2+\frac{1}{N}\sum_{i=1}^N(u-\bar{u})(x-\bar{x}) \end{split} \end{equation*}$ 由于 $co v (x, u) = 0$ ，因此 $\frac{1}{N}\sum_{i=1}^N(u-\bar{u})(x-\bar{x})=0$ 。从而得到 $\begin{equation*} \begin{split} \sum_{i=1}^N(x-\bar{x})(y_i-\bar{y})&=\sum_{i=1}^N\beta_1(x-\bar{x})^2 \\ \hat{\beta_1}&=\frac{\sum_{i=1}^N(x-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^N(x-\bar{x})^2} \\&=\frac{cov(x,y)}{var(x)} \end{split} \end{equation*}$ 再由式子 $(1)$ 得 $\hat{\beta_0}=\bar{y}-\hat{\beta_1}\bar{x}$

证明1.2 普通最小二乘法（OLS）求解 $\hat{\beta_0}$ 和 $\hat{\beta_1}$

简单的说，我们的任务就是找到使均方误差最小的 $\beta_0$ 和 $\beta_1$ 。数学表达式如下： $\begin{equation*} \begin{split} \mathop{min}\limits_{\hat{\beta_1},\hat{\beta_0}}\frac{1}{N}\sum_{i=1}^N(\hat{u}_i-\bar{u})^2 &=\mathop{min}\limits_{\hat{\beta_1},\hat{\beta_0}}\frac{1}{N}\sum_{i=1}^N(\hat{u}_i)^2 \\&=\mathop{min}\limits_{\hat{\beta_1},\hat{\beta_0}}\frac{1}{N}\sum_{i=1}^N(y_i-\hat{\beta_0}-\hat{\beta_1}x_i)^2 \tag{3} \end{split} \end{equation*}$ 对 $(3)$ 尾式分别对 $\beta_1、\beta_2$ 微分得到 $\begin{equation*} \begin{split} -2\times\frac{1}{N}\sum_{i=1}^N(y_i-\hat{\beta_0}-\hat{\beta_1}x_i)=0\\ -2\times\frac{1}{N}\sum_{i=1}^N(x_i(y_i-\hat{\beta_0}-\hat{\beta_1}x_i))=0 \end{split} \end{equation*}$ 这等价于样本矩条件，连列两个方程，可以求得与1.1证明相同的结果。

拟合优度

分别定义一下指标以评价方程对数据的拟合情况。

名称	缩写	公式
总平方和	SST	$\sum_{i=1}^N(y_i-\bar{y})^2$
解释平方和	SSE	$\sum_{i=1}^N(\hat{y_i}-\bar{y})^2$
残差平方和	SSR	$\sum_{i=1}^N(\hat{u})^2$

他们的关系为SST=SSE+SSR，以下将给出证明。

证明2.1 SST=SSE+SSR

$\begin{equation*} \begin{aligned} SST&=\sum_{i=1}^N(y_i-\bar{y})^2 \\&=\sum_{i=1}^N(y_i-\hat{y_i}+\hat{y_i}-\bar{y})^2 \\&=\sum_{i=1}^N(\hat{u_i}+\hat{y_i}-\bar{y})^2 \\&=\sum_{i=1}^N(\hat{u_i})^2+\sum_{i=1}^N(\hat{y_i}-\bar{y})^2+2\sum_{i=1}^N\hat{u_i}(\hat{y_i}-\bar{y_i}) \tag{4} \\&=SSR+SSE+2\sum_{i=1}^N\hat{u_i}(\hat{y_i}-\bar{y_i}) \end{aligned} \end{equation*}$ 另外结合零条件均值假设，考察 $\sum_{i=1}^N\hat{u_i}(\hat{y_i}-\bar{y_i})$ $\begin{equation*} \begin{aligned} \sum_{i=1}^N\hat{u_i}(\hat{y_i}-\bar{y_i})&=\sum_{i=1}^N\hat{u_i}\hat{y_i}-\bar{y}\sum_{i=1}^N\hat{u_i} \\&=\sum_{i=1}^N\hat{u_i}(\hat{\beta_0}-\hat{\beta_1}x_i)-0 \\&=\hat{\beta_0}\sum_{i=1}^N\hat{u_i}- \hat{\beta_1}\sum_{i=1}^N\hat{u_i}x_i \\&=0 \\ \\so \ that \ with (4)&,SST=SSR+SSE \end{aligned} \end{equation*}$
我们定义拟合优度为 $R^2=\frac{SSE}{SST}=1-\frac{SSR}{SST}$ ，同时拟合优度亦可通过相关系数进行计算 $R^2=corr(y,\hat{y})=corr(x,y)$ 。

证明2.2 $\ R^2=corr^2(y,\hat{y})=corr^2(x,y)$

显而易见 $corr(y,\hat{y})=corr(y,\hat{\beta_1}x+\hat{\beta_0})=corr(x,y)$ （对某一数据线性变换不影响相关性） $\begin{equation*} \begin{aligned} defined\ by\ R^2&=\frac{SSE}{SST}=\frac{\sum_{i=1}^{N}(\hat{y}_i-\bar{y})^2}{\sum_{i=1}^{N}(y_i-\bar{y})^2} \\&=\frac{\sum_{i=1}^{N}(\hat{\beta_1}x+\hat{\beta_0}-\hat{\beta_1}\bar{x}-\hat{\beta_0})^2}{\sum_{i=1}^{N}(y_i-\bar{y})^2} \\&=\frac{\sum_{i=1}^{N}(\hat{\beta_1}x-\hat{\beta_1}\bar{x})^2}{\sum_{i=1}^{N}(y_i-\bar{y})^2} \\&=\frac{var^2(\hat{\beta_1}x)}{var^2(y)} \\&=\hat{\beta_1}^2\frac{var(x)}{var(y)} \\&=\frac{cov^2(x,y)}{var^2(x)}\times\frac{var(x)}{var(y)} \\&=[\frac{cov(x,y)}{\sqrt{var(x)var(y)}}]^2 \\&=corr^2(x,y) \\ \ so\ certified \ that \ R^2&=corr^2(y,\hat{y})=corr^2(x,y) \end{aligned} \end{equation*}$

参数的无偏性

我们所求参数 $\hat{\beta_1}$ 与 $\hat{\beta_0}$ 具有无偏性。以下将给出证明。

证明3.1 估计参数 $\hat{\beta_1}$ 无偏，即 $E(\hat{\beta}_1)=\beta_1$

$\begin{equation*} \begin{aligned} known \ \ that \ \ \ \hat{\beta}_1=\frac{\sum_{i=1}^N(x-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^N(x-\bar{x})^2} \tag{5} \ \ \ and \ \ y_i-\bar{y}=\beta_1(x_i-\bar{x})+(u_i-\bar{u}) \end{aligned} \end{equation*}$
待更新，有问题请评论区说明