一元线性回归简记

基本概念

从独立的两个随机变量X和Y中获取n对观察结果组成的样本 ( X 1 , Y 1 ) , ( X 2 , Y 2 ) , … , ( X n , Y n ) (X_1, Y_1),(X_2, Y_2),\ldots,(X_n, Y_n) (X1,Y1),(X2,Y2),,(Xn,Yn)。假设随机变量X与Y呈线性相关,即假设 Y = a + b X Y=a+bX Y=a+bX。则估计其中参数 a a a b b b的问题就可以称为一元线性回归问题。

最小二乘法

即使随机变量X和Y服从线性关系: Y = a + b X Y=a+bX Y=a+bX,得到的数据也不太可能完全符合该方程,因为总会有随机误差的出现。最简单的思路则是看实际数据与线性关系求出的理想数据之间的差值,量化评估该差值是否过大。定义残差(residual)为实际观察值与估计值(拟合值)之间的差。如果回归模型正确,我们可以将残差看作误差的观测值。定义残差平方和(residual sum of squares,SSE)为:

Q e = ∑ i = 1 n ( y i − a − b x i ) 2 Q_e = \sum_{i=1}^{n}(y_i - a - bx_i)^2 Qe=i=1n(yiabxi)2

则可以通过使得残差平方和最小的方式估计出参数 a a a b b b,该方法则称为最小二乘法(Least squares)。

具体解法往往就是取残差平方和对a和b的偏导数,并使之等于零,从而求得使残差平方和最小时的a和b:

{ ∂ Q ∂ a = − 2 ∑ i = 1 n ( y i − a − b x i ) = 0 ∂ Q ∂ b = − 2 ∑ i = 1 n ( y i − a − b x i ) x i = 0 \left\{\begin{array}{l}{\frac{\partial Q}{\partial a}=-2 \sum_{i=1}^{n}\left(y_{i}-a-b x_{i}\right)=0} \\ \\ {\frac{\partial Q}{\partial b}=-2 \sum_{i=1}^{n}\left(y_{i}-a-b x_{i}\right) x_{i}=0}\end{array}\right. aQ=2i=1n(yiabxi)=0bQ=2i=1n(yiabxi)xi=0

求解上述方程组可得a和b为:

{ a ^ = 1 n ∑ i = 1 n y i − b n ∑ i = 1 n x i = y ˉ − x ˉ b b ^ = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 \left\{\begin{array}{l}{\widehat{a}=\frac{1}{n} \sum_{i=1}^{n} y_{i}-\frac{b}{n} \sum_{i=1}^{n} x_{i}=\bar{y}-\bar{x} b} \\ \\ {\widehat{b}=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}}\end{array}\right. a =n1i=1nyinbi=1nxi=yˉxˉbb =i=1n(xixˉ)2i=1n(xixˉ)(yiyˉ)

由此获得的方程 y ^ = a ^ + b ^ x \widehat{y}=\widehat{a}+\widehat{b}x y =a +b x称为经验回归方程,该方程也可表示为 y ^ = y ˉ + b ^ ( x − x ˉ ) \widehat{y}=\bar{y}+\widehat{b}(x-\bar{x}) y =yˉ+b (xxˉ),即回归直线会通过散点图的几何中心 ( x ˉ , y ˉ ) (\bar{x},\bar{y}) (xˉ,yˉ)

统计学方法

上述方法仅仅能在假设 Y = a + b X Y=a+bX Y=a+bX成立的条件下估计出参数a和b。如果从统计学的角度考虑一元线性回归问题,则可以解决更多问题。

统计学建模

现在统计学上对一元线性回归问题进行建模。假设随机变量Y服从正态分布,且其均值与随机变量X成线性关系,即:

Y ∼ N ( a + b x , σ 2 ) Y \sim N(a+bx, \sigma^2) YN(a+bx,σ2)

ϵ = Y − ( a + b x ) ∼ N ( 0 , σ 2 ) \epsilon = Y - (a+bx) \sim N(0,\sigma^2) ϵ=Y(a+bx)N(0,σ2),则上述假设等同于:

Y = a + b x + ϵ Y = a + bx + \epsilon Y=a+bx+ϵ

其中 ϵ \epsilon ϵ即为服从正态分布 N ( 0 , σ 2 ) N(0,\sigma^2) N(0,σ2)的随机误差。该误差的方差 σ 2 \sigma^2 σ2称为均方误差(Mean-Square Error, MSE),反映了估计量与被估计量之间的差异程度。

统计学方法估计a和b

对于已经获得的n对样本数据 ( X 1 , Y 1 ) , ( X 2 , Y 2 ) , … , ( X n , Y n ) (X_1, Y_1),(X_2, Y_2),\ldots,(X_n, Y_n) (X1,Y1),(X2,Y2),,(Xn,Yn),可以求出获得这n对数据的联合密度:

L = ∏ i = 1 n 1 2 π σ e − ( y i − a − b x i ) 2 2 σ 2 = ( 1 2 π σ ) n e − 1 2 σ 2 ∑ i = 1 n ( y i − a − b x i ) 2 L=\prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi} \sigma} e^{\frac{-\left(y_{i}-a-b x_{i}\right)^{2}}{2 \sigma^{2}}}=\left(\frac{1}{\sqrt{2 \pi} \sigma}\right)^{n} e^{-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(y_{i}-a-b x_{i}\right)^{2}} L=i=1n2π σ1e2σ2(yiabxi)2=(2π σ1)ne2σ21i=1n(yiabxi)2

在此可以使用最大似然法估计a和b,即估计参数a和b使得上述联合密度(似然函数)取得最大值,也就是求使指数部分 ∑ i = 1 n ( y i − a − b x i ) 2 \sum_{i=1}^{n}\left(y_{i}-a-b x_{i}\right)^{2} i=1n(yiabxi)2取最小值时的a和b。可以看出通过该方法求得参数a和b的结果与最小二乘法的结果一致。

估计均方误差

根据线性假设,有 Y = a + b x + ϵ Y = a + bx + \epsilon Y=a+bx+ϵ,其中 ϵ \epsilon ϵ为服从正态分布 N ( 0 , σ 2 ) N(0,\sigma^2) N(0,σ2)的随机误差。根据残差平方和定义,有 Q e = ∑ i = 1 n ( y i − a − b x i ) 2 Q_e = \sum_{i=1}^{n}(y_i - a - bx_i)^2 Qe=i=1n(yiabxi)2。可以构建如下统计量(具体推断过程省略):

Q e σ 2 ∼ χ 2 ( n − 2 ) \frac{Q_e}{\sigma^2} \sim \chi^2(n-2) σ2Qeχ2(n2)

则有 E ( Q e σ 2 ) = n − 2 E(\frac{Q_e}{\sigma^2}) = n-2 E(σ2Qe)=n2,即 E ( Q e n − 2 ) = σ 2 E(\frac{Q_e}{n-2}) = \sigma^2 E(n2Qe)=σ2,也就是说 Q e n − 2 \frac{Q_e}{n-2} n2Qe就是总体方差 σ 2 \sigma^2 σ2的无偏估计。也就是可以通过样本计算出的残差平方和来估计均方误差,均方误差的大小则反映了估计量与被估计量之间的差异程度,也就反映了线性拟合的强弱程度。

线性假设的显著性检验

可以通过检验系数 b = 0 b=0 b=0来检验线性假设 Y = a + b x + ϵ Y = a + bx + \epsilon Y=a+bx+ϵ。b的估计量 b ^ \widehat{b} b 服从如下分布(详细推证过程省略):

b ^ ∼ N ( b , σ 2 ∑ i = 1 n ( x i − x ˉ ) 2 ) = N ( b , σ 2 S x x ) \widehat{b} \sim N(b, \frac{\sigma^2}{\sum_{i=1}^{n}(x_i-\bar{x})^2}) = N(b, \frac{\sigma^2}{S_{xx}}) b N(b,i=1n(xixˉ)2σ2)=N(b,Sxxσ2)

其中 S x x S_{xx} Sxx ∑ i = 1 n ( x i − x ˉ ) 2 = ( n − 1 ) S x 2 \sum_{i=1}^{n}(x_i-\bar{x})^2=(n-1)S_x^2 i=1n(xixˉ)2=(n1)Sx2。结合 Q e σ 2 ∼ χ 2 ( n − 2 ) \frac{Q_e}{\sigma^2} \sim \chi^2(n-2) σ2Qeχ2(n2),构建统计量:

t = ( b ^ − b ) ∑ i = 1 n ( x i − x ˉ ) 2 Q e / ( n − 2 ) = b ^ − b σ ^ / S x x ∼ t ( n − 2 ) t = \frac{(\widehat{b} - b)\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}}{\sqrt{Q_e/(n-2)}} = \frac{\widehat{b} - b}{\widehat{\sigma}/\sqrt{S_{xx}}} \sim t(n-2) t=Qe/(n2) (b b)i=1n(xixˉ)2 =σ /Sxx b bt(n2)

其中 σ ^ 2 \widehat{\sigma}^2 σ 2即为总体方差的无偏估计 Q e n − 2 \frac{Q_e}{n-2} n2Qe。可以通过该统计量进行双边t检验,检验假设 b = 0 b=0 b=0,进而检验Y和X之间的一元线性关系是否显著。也可以根据该统计量计算出参数b的置信区间。

置信区间以及预测区间

根据一元线性回归的统计学模型 Y ∼ N ( a + b x , σ 2 ) Y \sim N(a+bx, \sigma^2) YN(a+bx,σ2),以及经验回归方程
y ^ = a ^ + b ^ x \widehat{y}=\widehat{a}+\widehat{b}x y =a +b x,可以估计 x = x 0 x=x_0 x=x0时,Y的总体均值 Y 0 ^ = a ^ + b ^ x 0 \widehat{Y_0}=\widehat{a}+\widehat{b}x_0 Y0 =a +b x0的置信区间。可以推得如下统计量(详细推论过程省略):

Y 0 ^ − ( a ^ + b ^ x 0 ) σ ^ 1 n + ( x 0 − x ˉ ) 2 S x x ∼ t ( n − 2 ) \frac{\widehat{Y_0}-(\widehat{a}+\widehat{b}x_0)}{\widehat{\sigma}\sqrt{\frac{1}{n} + \frac{(x_0 - \bar{x})^2}{S_{xx}}}} \sim t(n-2) σ n1+Sxx(x0xˉ)2 Y0 (a +b x0)t(n2)

其中 S x x = ∑ i = 1 n ( x i − x ˉ ) 2 = ( n − 1 ) S x 2 S_{xx} = \sum_{i=1}^{n}(x_i-\bar{x})^2=(n-1)S_x^2 Sxx=i=1n(xixˉ)2=(n1)Sx2 σ ^ 2 = Q e n − 2 \widehat{\sigma}^2 = \frac{Q_e}{n-2} σ 2=n2Qe。因此可以求得Y在 x = x 0 x=x_0 x=x0处的总体均值的置信水平为 1 − α 1-\alpha 1α的置信区间为:

( a ^ + b ^ x 0 ± t α / 2 ( n − 2 ) σ ^ 1 n + ( x 0 − x ˉ ) 2 S x x ) \left(\hat{a}+\hat{b} x_{0} \pm t_{\alpha / 2}(n-2) \hat{\sigma} \sqrt{\frac{1}{n}+\frac{\left(x_{0}-\bar{x}\right)^{2}}{S_{x x}}}\right) a^+b^x0±tα/2(n2)σ^n1+Sxx(x0xˉ)2

可以看出其长度与 x 0 x_0 x0所处位置相关, x 0 x_0 x0距离 x ˉ \bar{x} xˉ越近,置信区间长度越小。

类似地,预测在 x = x 0 x=x_0 x=x0处的一个新测量值 Y 0 Y_0 Y0符合如下分布:

Y 0 ^ − Y 0 σ ^ 1 + 1 n + ( x 0 − x ˉ ) 2 S x x ∼ t ( n − 2 ) \frac{\widehat{Y_0}-Y_0}{\widehat{\sigma}\sqrt{1 + \frac{1}{n} + \frac{(x_0 - \bar{x})^2}{S_{xx}}}} \sim t(n-2) σ 1+n1+Sxx(x0xˉ)2 Y0 Y0t(n2)

Y 0 Y_0 Y0可能出现的区间(预测区间)如下(出现的可能性为 1 − α 1-\alpha 1α):

( a ^ + b ^ x 0 ± t α / 2 ( n − 2 ) σ ^ 1 + 1 n + ( x 0 − x ˉ ) 2 S x x ) \left(\hat{a}+\hat{b} x_{0} \pm t_{\alpha / 2}(n-2) \hat{\sigma} \sqrt{1+\frac{1}{n}+\frac{\left(x_{0}-\bar{x}\right)^{2}}{S_{x x}}}\right) a^+b^x0±tα/2(n2)σ^1+n1+Sxx(x0xˉ)2

此处应该注意预测区间和置信区间的差别。二者含义近似,但置信区间强调的是当 x = x 0 x=x_0 x=x0时,随机变量Y的总体均值可能出现的区间;而预测区间则强调随机变量Y在 x = x 0 x=x_0 x=x0可能取到的具体值所在的区间。显然预测区间是略大于置信区间的。

表示一元线性回归模型置信区间或预测区间的图像往往如下:
线性回归置信区间

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值