一元线性回归公式推导及证明

一元线性回归公式推导及证明

回归方程的架构

对于二维数据 ( x i , y i ) (x_{i},y_{i}) (xi,yi)进行建模,通过回归方程 y i = β 0 + β 1 x i + u y_{i}=\beta_{0}+\beta_{1}x_{i}+u yi=β0+β1xi+u描述其数据关系。求该方程需要获取未知参数 β 0 ^ \hat{\beta_0} β0^ β 1 ^ \hat{\beta_1} β1^

有以下两种方式可以推导参数的解法

证明1.1矩估计求解 β 0 ^ \hat{\beta_0} β0^ β 1 ^ \hat{\beta_1} β1^

矩估计方法依赖于零条件均值假设: E ( u ∣ x ) = 0 E(u|x)=0 E(ux)=0该假设的意思是给定 x x x,通过回归方程所得的 y ^ \hat{y} y^与实际 y y y的误差,平均值为0。也就是说因果关系上, y y y只受到 β 0 \beta_0 β0 β 1 \beta_1 β1的影响。

根据零条件均值可以推出两个公式。 E ( u ) = E ( E ( u ∣ x ) ) = 0 c o v ( x , u ) = E ( x u ) − E ( x ) E ( u ) = E ( x u ) = E ( E ( x u ∣ x ) ) = E ( x E ( u ∣ x ) ) = 0 \begin{equation*} \begin{aligned} E(u)&=E(E(u|x))=0\\ \end{aligned} \end{equation*}\\ \begin{equation*} \begin{aligned} cov(x,u)&=E(xu)-E(x)E(u)\\ &=E(xu)\\ &=E(E(xu|x))\\ &=E(xE(u|x))\\ &=0 \end{aligned}\end{equation*} E(u)=E(E(ux))=0cov(x,u)=E(xu)E(x)E(u)=E(xu)=E(E(xux))=E(xE(ux))=0 这是求解未知参数的关键。

另外已知
y i = β 0 + β 1 x + u    = = = = =    y ˉ = β 0 + β 1 x ˉ + u ˉ    = = = = = ;    \begin{equation*} \begin{split} y_i&=\beta_0+\beta_1x+u\phantom{\;=====\;}\tag{1}\\ \end{split} \end{equation*} \\\begin{equation*} \begin{split} \bar{y}&=\beta_0+\beta_1\bar{x}+\bar{u}\phantom{\;=====;\;}\tag{2} \end{split} \end{equation*} yi=β0+β1x+u=====(1)yˉ=β0+β1xˉ+uˉ=====;(2)
( 1 ) − ( 2 ) (1)-(2) (1)(2) y i − y ˉ = β 1 ( x − x ˉ ) + ( u − u ˉ ) ( x − x ˉ ) ( y i − y ˉ ) = β 1 ( x − x ˉ ) 2 + ( u − u ˉ ) ( x − x ˉ ) \begin{equation*} \begin{split} y_i-\bar{y}=\beta_1(x-\bar{x})+(u-\bar{u}) \end{split} \end{equation*}\\ \begin{equation*} \begin{split} (x-\bar{x})(y_i-\bar{y})=\beta_1(x-\bar{x})^2+(u-\bar{u})(x-\bar{x}) \end{split} \end{equation*} yiyˉ=β1(xxˉ)+(uuˉ)(xxˉ)(yiyˉ)=β1(xxˉ)2+(uuˉ)(xxˉ)
遍历所有的 i = 1 , 2 , 3.... i=1,2,3.... i=1,2,3....,并求和 1 N ∑ i = 1 N ( x − x ˉ ) ( y i − y ˉ ) = 1 N ∑ i = 1 N β 1 ( x − x ˉ ) 2 + 1 N ∑ i = 1 N ( u − u ˉ ) ( x − x ˉ ) \begin{equation*} \begin{split} \frac{1}{N}\sum_{i=1}^N(x-\bar{x})(y_i-\bar{y})=\frac{1}{N}\sum_{i=1}^N\beta_1(x-\bar{x})^2+\frac{1}{N}\sum_{i=1}^N(u-\bar{u})(x-\bar{x}) \end{split} \end{equation*} N1i=1N(xxˉ)(yiyˉ)=N1i=1Nβ1(xxˉ)2+N1i=1N(uuˉ)(xxˉ)由于 c o v ( x , u ) = 0 cov(x,u)=0 cov(x,u)=0,因此 1 N ∑ i = 1 N ( u − u ˉ ) ( x − x ˉ ) = 0 \frac{1}{N}\sum_{i=1}^N(u-\bar{u})(x-\bar{x})=0 N1i=1N(uuˉ)(xxˉ)=0。从而得到 ∑ i = 1 N ( x − x ˉ ) ( y i − y ˉ ) = ∑ i = 1 N β 1 ( x − x ˉ ) 2 β 1 ^ = ∑ i = 1 N ( x − x ˉ ) ( y i − y ˉ ) ∑ i = 1 N ( x − x ˉ ) 2 = c o v ( x , y ) v a r ( x ) \begin{equation*} \begin{split} \sum_{i=1}^N(x-\bar{x})(y_i-\bar{y})&=\sum_{i=1}^N\beta_1(x-\bar{x})^2 \\ \hat{\beta_1}&=\frac{\sum_{i=1}^N(x-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^N(x-\bar{x})^2} \\&=\frac{cov(x,y)}{var(x)} \end{split} \end{equation*} i=1N(xxˉ)(yiyˉ)β1^=i=1Nβ1(xxˉ)2=i=1N(xxˉ)2i=1N(xxˉ)(yiyˉ)=var(x)cov(x,y)再由式子 ( 1 ) (1) (1) β 0 ^ = y ˉ − β 1 ^ x ˉ \hat{\beta_0}=\bar{y}-\hat{\beta_1}\bar{x} β0^=yˉβ1^xˉ

证明1.2 普通最小二乘法(OLS)求解 β 0 ^ \hat{\beta_0} β0^ β 1 ^ \hat{\beta_1} β1^

简单的说,我们的任务就是找到使均方误差最小的 β 0 \beta_0 β0 β 1 \beta_1 β1。数学表达式如下: m i n β 1 ^ , β 0 ^ 1 N ∑ i = 1 N ( u ^ i − u ˉ ) 2 = m i n β 1 ^ , β 0 ^ 1 N ∑ i = 1 N ( u ^ i ) 2 = m i n β 1 ^ , β 0 ^ 1 N ∑ i = 1 N ( y i − β 0 ^ − β 1 ^ x i ) 2 \begin{equation*} \begin{split} \mathop{min}\limits_{\hat{\beta_1},\hat{\beta_0}}\frac{1}{N}\sum_{i=1}^N(\hat{u}_i-\bar{u})^2 &=\mathop{min}\limits_{\hat{\beta_1},\hat{\beta_0}}\frac{1}{N}\sum_{i=1}^N(\hat{u}_i)^2 \\&=\mathop{min}\limits_{\hat{\beta_1},\hat{\beta_0}}\frac{1}{N}\sum_{i=1}^N(y_i-\hat{\beta_0}-\hat{\beta_1}x_i)^2 \tag{3} \end{split} \end{equation*} β1^,β0^minN1i=1N(u^iuˉ)2=β1^,β0^minN1i=1N(u^i)2=β1^,β0^minN1i=1N(yiβ0^β1^xi)2(3) ( 3 ) (3) (3)尾式分别对 β 1 、 β 2 \beta_1、\beta_2 β1β2微分得到 − 2 × 1 N ∑ i = 1 N ( y i − β 0 ^ − β 1 ^ x i ) = 0 − 2 × 1 N ∑ i = 1 N ( x i ( y i − β 0 ^ − β 1 ^ x i ) ) = 0 \begin{equation*} \begin{split} -2\times\frac{1}{N}\sum_{i=1}^N(y_i-\hat{\beta_0}-\hat{\beta_1}x_i)=0\\ -2\times\frac{1}{N}\sum_{i=1}^N(x_i(y_i-\hat{\beta_0}-\hat{\beta_1}x_i))=0 \end{split} \end{equation*} 2×N1i=1N(yiβ0^β1^xi)=02×N1i=1N(xi(yiβ0^β1^xi))=0这等价于样本矩条件,连列两个方程,可以求得与1.1证明相同的结果。

拟合优度

分别定义一下指标以评价方程对数据的拟合情况。

名称缩写公式
总平方和SST ∑ i = 1 N ( y i − y ˉ ) 2 \sum_{i=1}^N(y_i-\bar{y})^2 i=1N(yiyˉ)2
解释平方和SSE ∑ i = 1 N ( y i ^ − y ˉ ) 2 \sum_{i=1}^N(\hat{y_i}-\bar{y})^2 i=1N(yi^yˉ)2
残差平方和SSR ∑ i = 1 N ( u ^ ) 2 \sum_{i=1}^N(\hat{u})^2 i=1N(u^)2

他们的关系为SST=SSE+SSR,以下将给出证明。

证明2.1 SST=SSE+SSR

S S T = ∑ i = 1 N ( y i − y ˉ ) 2 = ∑ i = 1 N ( y i − y i ^ + y i ^ − y ˉ ) 2 = ∑ i = 1 N ( u i ^ + y i ^ − y ˉ ) 2 = ∑ i = 1 N ( u i ^ ) 2 + ∑ i = 1 N ( y i ^ − y ˉ ) 2 + 2 ∑ i = 1 N u i ^ ( y i ^ − y i ˉ ) = S S R + S S E + 2 ∑ i = 1 N u i ^ ( y i ^ − y i ˉ ) \begin{equation*} \begin{aligned} SST&=\sum_{i=1}^N(y_i-\bar{y})^2 \\&=\sum_{i=1}^N(y_i-\hat{y_i}+\hat{y_i}-\bar{y})^2 \\&=\sum_{i=1}^N(\hat{u_i}+\hat{y_i}-\bar{y})^2 \\&=\sum_{i=1}^N(\hat{u_i})^2+\sum_{i=1}^N(\hat{y_i}-\bar{y})^2+2\sum_{i=1}^N\hat{u_i}(\hat{y_i}-\bar{y_i}) \tag{4} \\&=SSR+SSE+2\sum_{i=1}^N\hat{u_i}(\hat{y_i}-\bar{y_i}) \end{aligned} \end{equation*} SST=i=1N(yiyˉ)2=i=1N(yiyi^+yi^yˉ)2=i=1N(ui^+yi^yˉ)2=i=1N(ui^)2+i=1N(yi^yˉ)2+2i=1Nui^(yi^yiˉ)=SSR+SSE+2i=1Nui^(yi^yiˉ)(4)另外结合零条件均值假设,考察 ∑ i = 1 N u i ^ ( y i ^ − y i ˉ ) \sum_{i=1}^N\hat{u_i}(\hat{y_i}-\bar{y_i}) i=1Nui^(yi^yiˉ) ∑ i = 1 N u i ^ ( y i ^ − y i ˉ ) = ∑ i = 1 N u i ^ y i ^ − y ˉ ∑ i = 1 N u i ^ = ∑ i = 1 N u i ^ ( β 0 ^ − β 1 ^ x i ) − 0 = β 0 ^ ∑ i = 1 N u i ^ − β 1 ^ ∑ i = 1 N u i ^ x i = 0 s o   t h a t   w i t h ( 4 ) , S S T = S S R + S S E \begin{equation*} \begin{aligned} \sum_{i=1}^N\hat{u_i}(\hat{y_i}-\bar{y_i})&=\sum_{i=1}^N\hat{u_i}\hat{y_i}-\bar{y}\sum_{i=1}^N\hat{u_i} \\&=\sum_{i=1}^N\hat{u_i}(\hat{\beta_0}-\hat{\beta_1}x_i)-0 \\&=\hat{\beta_0}\sum_{i=1}^N\hat{u_i}- \hat{\beta_1}\sum_{i=1}^N\hat{u_i}x_i \\&=0 \\ \\so \ that \ with (4)&,SST=SSR+SSE \end{aligned} \end{equation*} i=1Nui^(yi^yiˉ)so that with(4)=i=1Nui^yi^yˉi=1Nui^=i=1Nui^(β0^β1^xi)0=β0^i=1Nui^β1^i=1Nui^xi=0,SST=SSR+SSE
我们定义拟合优度为 R 2 = S S E S S T = 1 − S S R S S T R^2=\frac{SSE}{SST}=1-\frac{SSR}{SST} R2=SSTSSE=1SSTSSR,同时拟合优度亦可通过相关系数进行计算 R 2 = c o r r ( y , y ^ ) = c o r r ( x , y ) R^2=corr(y,\hat{y})=corr(x,y) R2=corr(y,y^)=corr(x,y)

证明2.2   R 2 = c o r r 2 ( y , y ^ ) = c o r r 2 ( x , y ) \ R^2=corr^2(y,\hat{y})=corr^2(x,y)  R2=corr2(y,y^)=corr2(x,y)

显而易见 c o r r ( y , y ^ ) = c o r r ( y , β 1 ^ x + β 0 ^ ) = c o r r ( x , y ) corr(y,\hat{y})=corr(y,\hat{\beta_1}x+\hat{\beta_0})=corr(x,y) corr(y,y^)=corr(y,β1^x+β0^)=corr(x,y)(对某一数据线性变换不影响相关性) d e f i n e d   b y   R 2 = S S E S S T = ∑ i = 1 N ( y ^ i − y ˉ ) 2 ∑ i = 1 N ( y i − y ˉ ) 2 = ∑ i = 1 N ( β 1 ^ x + β 0 ^ − β 1 ^ x ˉ − β 0 ^ ) 2 ∑ i = 1 N ( y i − y ˉ ) 2 = ∑ i = 1 N ( β 1 ^ x − β 1 ^ x ˉ ) 2 ∑ i = 1 N ( y i − y ˉ ) 2 = v a r 2 ( β 1 ^ x ) v a r 2 ( y ) = β 1 ^ 2 v a r ( x ) v a r ( y ) = c o v 2 ( x , y ) v a r 2 ( x ) × v a r ( x ) v a r ( y ) = [ c o v ( x , y ) v a r ( x ) v a r ( y ) ] 2 = c o r r 2 ( x , y )   s o   c e r t i f i e d   t h a t   R 2 = c o r r 2 ( y , y ^ ) = c o r r 2 ( x , y ) \begin{equation*} \begin{aligned} defined\ by\ R^2&=\frac{SSE}{SST}=\frac{\sum_{i=1}^{N}(\hat{y}_i-\bar{y})^2}{\sum_{i=1}^{N}(y_i-\bar{y})^2} \\&=\frac{\sum_{i=1}^{N}(\hat{\beta_1}x+\hat{\beta_0}-\hat{\beta_1}\bar{x}-\hat{\beta_0})^2}{\sum_{i=1}^{N}(y_i-\bar{y})^2} \\&=\frac{\sum_{i=1}^{N}(\hat{\beta_1}x-\hat{\beta_1}\bar{x})^2}{\sum_{i=1}^{N}(y_i-\bar{y})^2} \\&=\frac{var^2(\hat{\beta_1}x)}{var^2(y)} \\&=\hat{\beta_1}^2\frac{var(x)}{var(y)} \\&=\frac{cov^2(x,y)}{var^2(x)}\times\frac{var(x)}{var(y)} \\&=[\frac{cov(x,y)}{\sqrt{var(x)var(y)}}]^2 \\&=corr^2(x,y) \\ \ so\ certified \ that \ R^2&=corr^2(y,\hat{y})=corr^2(x,y) \end{aligned} \end{equation*} defined by R2 so certified that R2=SSTSSE=i=1N(yiyˉ)2i=1N(y^iyˉ)2=i=1N(yiyˉ)2i=1N(β1^x+β0^β1^xˉβ0^)2=i=1N(yiyˉ)2i=1N(β1^xβ1^xˉ)2=var2(y)var2(β1^x)=β1^2var(y)var(x)=var2(x)cov2(x,y)×var(y)var(x)=[var(x)var(y) cov(x,y)]2=corr2(x,y)=corr2(y,y^)=corr2(x,y)

参数的无偏性

我们所求参数 β 1 ^ \hat{\beta_1} β1^ β 0 ^ \hat{\beta_0} β0^具有无偏性。以下将给出证明。

证明3.1 估计参数 β 1 ^ \hat{\beta_1} β1^无偏,即 E ( β ^ 1 ) = β 1 E(\hat{\beta}_1)=\beta_1 E(β^1)=β1

k n o w n    t h a t     β ^ 1 = ∑ i = 1 N ( x − x ˉ ) ( y i − y ˉ ) ∑ i = 1 N ( x − x ˉ ) 2     a n d    y i − y ˉ = β 1 ( x i − x ˉ ) + ( u i − u ˉ ) \begin{equation*} \begin{aligned} known \ \ that \ \ \ \hat{\beta}_1=\frac{\sum_{i=1}^N(x-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^N(x-\bar{x})^2} \tag{5} \ \ \ and \ \ y_i-\bar{y}=\beta_1(x_i-\bar{x})+(u_i-\bar{u}) \end{aligned} \end{equation*} known  that   β^1=i=1N(xxˉ)2i=1N(xxˉ)(yiyˉ)   and  yiyˉ=β1(xixˉ)+(uiuˉ)(5)
待更新,有问题请评论区说明

### 一元线性回归中的最小二乘法推导一元线性回归中,目标是找到一条直线来最好地描述两个变量 \( x \) 和 \( y \) 之间的关系。这条直线可以用下面的方程表示: \[ y = wx + b \] 其中: - \( w \) 是斜率, - \( b \) 是截距。 为了使模型尽可能好地拟合数据集,需要定义一种衡量标准来评估不同参数组合下的误差大小。常用的方法是最小化残差平方和 (RSS),也称为最小二乘法。具体来说,对于给定的数据点集合 \( {(x_i, y_i)}_{i=1}^{n} \),希望找到最优的 \( w \) 和 \( b \),使得所有样本点到该直线的距离之和最小[^1]。 #### 定义损失函数 设实际观测值为 \( y_i \),而根据当前假设得到的预测值为 \( \hat{y}_i = wx_i + b \),则第 i 个样本对应的残差 e 可以写作: \[ e_i = y_i - (\widehat{wx_i+b}) \] 因此,整个训练集中所有样本的总误差 E(w,b) 表达如下: \[ E(w,b)=\sum_{i=1}^ne_i^2=\sum_{i=1}^n(y_i-(wx_i+b))^2 \] 这个表达式就是所谓的 **均方误差** 或者说 **残差平方和** ,它用来度量我们的模型与真实情况之间差距的程度[^2]。 #### 寻找最佳参数 为了让上述公式达到极小值,可以通过对 \( w \) 和 \( b \) 分别求偏导数,并令其等于零来进行优化操作。这样做的目的是让这些参数能够最大程度上减小整体误差。下面是具体的计算过程: 针对 \( w \): \[ \frac{\partial}{\partial w}\left[\sum_{i=1}^{n}(y_i-wx_i-b)^2\right]=0 \] 展开后简化可得: \[ 2\cdot(-)\sum_{i=1}^{n}x_ie_i=-2\sum_{i=1}^{n}x_i(y_i-wx_i-b)=0 \] 进一步整理得出关于 \( w \) 的正规方程形式: \[ nwb+\sum_{i=1}^{n}bx_i-\sum_{i=1}^{n}xy_i+w\sum_{i=1}^{n}x_i^2=0 \] 同理,针对 \( b \): \[ \frac{\partial}{\partial b}\left[\sum_{i=1}^{n}(y_i-wx_i-b)^2\right]=0 \] 最终获得另一个正规方程: \[ nb+\sum_{i=1}^{n}wx_i-\sum_{i=1}^{n}y_i=0 \] 联立这两个方程式即可解出 \( w \) 和 \( b \)[^3]。 通过以上步骤完成了一元线性回归里最小二乘法公式的理论证明。当有了具体的数值之后就可以带入相应的公式去估算未知系数了。 ```python import numpy as np def compute_coefficients(X, Y): """ 计算简单线性回归的最佳拟合线 """ mean_x = np.mean(X) mean_y = np.mean(Y) num = sum((X-mean_x)*(Y-mean_y)) den = sum(pow((X-mean_x), 2)) slope = num / den intercept = mean_y - slope*mean_x return slope, intercept ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值