线性回归讲解

一、首言

回归分析统计方法研究变量之间的关系并且对其构建模型,回归的应用领域广泛,几乎是可以遍及所有的学科。
举个例子,如下图所示:
在这里插入图片描述
我们可以观察到,这些观测值的散点图,它清楚地表明了y与x之间的关系,能够看到所有观测的数据大概是落到了同一条直线上。上图画出了这条直线,但是我们知道的是这条直线其实并不完全准确。我们假设这条直线的方程为:
y = β 0 + β 1 x y=\beta_0+\beta_1x y=β0+β1x
式中, β 0 \beta_0 β0为截距, β 1 \beta_1 β1为斜率。但是,因为数据点并不是精确地落到了这条直线上,所以,我们对上一个方程进行修改,令y的观测值和直线上 β 0 + β 1 x \beta_0+\beta_1x β0+β1x之间的差值为误差 ε \varepsilon ε,因此,我们就有更加合理的模型为
y = β 0 + β 1 x + ε y=\beta_0+\beta_1x+\varepsilon y=β0+β1x+ε
我们称该方程为线性回归模型,习惯上将x称为自变量,y称为因变量;或者x称为预测变量或回归变量,y称为响应变量。
在使用回归分析的过程中,一个重要的目标就是估计回归模型中的未知参数,这一过程也称为用模型拟合数据。在回归分析的下一阶段就是模型适应性检验,模型适应性检验用来研究模型的适当程度,确定拟合质量的高低。
在进行数据收集的时候,我们可以使用如下的方法

  • 基于历史数据的回顾性研究
  • 观测性研究
  • 实验设计

回归的用途

  1. 描述数据
  2. 参数估计
  3. 预测与评估
  4. 控制

二、简单线性回归

2.1 简单线性回归模型

简单线性回归模型为:
y = β 0 + β 1 x + ε y=\beta_0+\beta_1x+\varepsilon y=β0+β1x+ε
在式中,截距 β 0 \beta_0 β0与斜率 β 1 \beta_1 β1为未知常数, ε \varepsilon ε为随机误差项。假设误差项的均值为0,且其方差为 σ 2 \sigma^2 σ2未知。此外通常假设方差是不相关的 ,不相关意味着一个误差的值不取决于其他误差的值。
换句话说,对于每一个x的可能值,存在一个y的概率分布,这一分布的均值为
E ( y ∣ x ) = β 0 + β 1 x E(y|x)=\beta_0+\beta_1x E(yx)=β0+β1x
方差为
V a r ( y ∣ x ) = V a r ( β 0 + β 1 x + ε ) = σ 2 Var(y|x)=Var(\beta_0+\beta_1x+\varepsilon)=\sigma^2 Var(yx)=Var(β0+β1x+ε)=σ2
因此,y的均值是x的线性函数,然而y的方差不依赖x的取值。进一步来说,因为误差是不相关的,所以响应变量也是不相关的。参数 β 0 \beta_0 β0 β 1 \beta_1 β1通常称为相关系数。

2.2 回归参数的最小二乘估计

参数 β 0 \beta_0 β0 β 1 \beta_1 β1是未知的,所以我们需要进行估计。

2.2.1 β 0 \beta_0 β0 β 1 \beta_1 β1的估计

使用最小二乘法来估计截距 β 0 \beta_0 β0与斜率 β 1 \beta_1 β1,也就是使估计 β 0 \beta_0 β0 β 1 \beta_1 β1使得观测值 y i y_i yi和回归直线之间差值的平方和最小。由此我们可以可以写出
y i = β 0 + β 1 x i + ε i ( i = 1 , 2 , . . . , n ) y_i=\beta_0+\beta_1x_i+\varepsilon_i \qquad (i=1,2,...,n) yi=β0+β1xi+εi(i=1,2,...,n)
我们将上面的式子称为样本回归模型,其中样本回归模型由n对数据 ( y i , x i ) ( i = 1 , 2 , . . . , n ) (y_i,x_i)(i=1,2,...,n) (yi,xi)(i=1,2,...,n)写出,因此最小二乘准则为
S ( β 0 , β 1 ) = ∑ i = 1 n ( y i − β 0 − β 1 x i ) 2 S(\beta_0,\beta_1)=\sum_{i=1}^n(y_i-\beta_0-\beta_1x_i)^2 S(β0,β1)=i=1n(yiβ0β1xi)2
β 0 \beta_0 β0 β 1 \beta_1 β1的最小二乘估计量分别为 β 0 ^ \hat{\beta_0} β0^ β 1 ^ \hat{\beta_1} β1^,并且需要满足:
∂ S ∂ β 0 ∣ β 0 ^ , β 1 ^ = − 2 ∑ i = 1 n ( y i − β 0 ^ − β 1 ^ x i ) = 0 \left.\dfrac{\partial S}{\partial\beta_0}\right|_{\hat{\beta_0},\hat{\beta_1}}=-2\sum_{i=1}^n(y_i-\hat{\beta_0}-\hat{\beta_1}x_i)=0 β0Sβ0^,β1^=2i=1n(yiβ0^β1^xi)=0以及
∂ S ∂ β 1 ∣ β 0 ^ , β 1 ^ = − 2 ∑ i = 1 n ( y i − β 0 ^ − β 1 ^ x i ) x i = 0 \left.\dfrac{\partial S}{\partial\beta_1}\right|_{\hat{\beta_0},\hat{\beta_1}}=-2\sum_{i=1}^n(y_i-\hat{\beta_0}-\hat{\beta_1}x_i)x_i=0 β1Sβ0^,β1^=2i=1n(yiβ0^β1^xi)xi=0
化简上面的式子容易得到:
n β 0 ^ + β 1 ^ ∑ i = 1 n x i = ∑ i = 1 n y i β 0 ^ ∑ i = 1 n x i + β 1 ^ ∑ i = 1 n x i 2 = ∑ i = 1 n y i x i n\hat{\beta_0}+\hat{\beta_1}\sum_{i=1}^nx_i=\sum_{i=1}^ny_i \\ \hat{\beta_0}\sum_{i=1}^nx_i+\hat{\beta_1}\sum_{i=1}^nx_i^2=\sum_{i=1}^ny_ix_i nβ0^+β1^i=1nxi=i=1nyiβ0^i=1nxi+β1^i=1nxi2=i=1nyixi
以上的方程称为 最小二乘正规方程,并且呢该正规方程的解为:
β 0 ^ = y ˉ − β 1 ^ x ˉ 以 及 β 1 ^ = ∑ i = 1 n y i x i − ( ∑ i = 1 n y i ) ( ∑ i = 1 n x i ) n ∑ i = 1 n x i 2 − ( ∑ i = 1 n x i ) 2 n \hat{\beta_0}=\bar{y}-\hat{\beta_1}\bar{x} \\ 以及\\ \hat{\beta_1}=\frac{\sum_{i=1}^ny_ix_i-\frac{(\sum_{i=1}^ny_i)(\sum_{i=1}^nx_i)}{n}}{\sum_{i=1}^nx_i^2-\frac{(\sum_{i=1}^nx_i)^2}{n}} β0^=yˉβ1^xˉβ1^=i=1nxi2n(i=1nxi)2i=1nyixin(i=1nyi)(i=1nxi)
式中, y ˉ = 1 n ∑ i = 1 n y i \bar y=\frac{1}{n}\sum_{i=1}^ny_i yˉ=n1i=1nyi x ˉ = = 1 n ∑ i = 1 n x i \bar x==\frac{1}{n}\sum_{i=1}^nx_i xˉ==n1i=1nxi分别为 x i x_i xi, y i y_i yi的平均值。因此 β 0 ^ \hat{\beta_0} β0^, β 1 ^ \hat{\beta_1} β1^分别是截距和斜率的最小二乘估计量,所以简单回归分析模型拟合为
y ^ = β 0 ^ + β 1 ^ x \hat{y}=\hat{\beta_0}+\hat{\beta_1}x y^=β0^+β1^x
因为在上面的方程中有分母为 x i x_i xi的校正平方和,分子为 x i , y i x_i,y_i xi,yi的校正叉积和,所以我们可以将分母和分子用更加紧凑的记号记为:
S x x = ∑ i = 1 n x i 2 − ( ∑ i = 1 n x i ) 2 n = ∑ i = 1 n ( x i − x ˉ ) 2 S x y = ∑ i = 1 n y i x i − ( ∑ i = 1 n y i ) ( ∑ i = 1 n x i ) n = ∑ i = 1 n y i ( x i − x ˉ ) S_{xx}={\sum_{i=1}^nx_i^2-\frac{(\sum_{i=1}^nx_i)^2}{n}}=\sum_{i=1}^n(x_i-\bar x)^2\\ S_{xy}=\sum_{i=1}^ny_ix_i-\frac{(\sum_{i=1}^ny_i)(\sum_{i=1}^nx_i)}n=\sum_{i=1}^ny_i(x_i-\bar x)\\ Sxx=i=1nxi2n(i=1nxi)2=i=1n(xixˉ)2Sxy=i=1nyixin(i=1nyi)(i=1nxi)=i=1nyi(xixˉ)
因此,我们可以将方程记为
β 1 ^ = S x y S x x \hat{\beta_1}=\frac{S_{xy}}{S_{xx}} β1^=SxxSxy
响应变量的值 y i y_i yi和其对应的拟合值 y i ^ \hat{y_i} yi^之间的差值为残差。数学上第i个残差为:
e i = y i − y i ^ = y i − ( β 0 ^ + β 1 ^ x i ) ( i = 1 , 2 , 3... n ) e_i=y_i-\hat{y_i}=y_i-({\hat{\beta_0}+\hat{\beta_1}x_i}) \qquad (i=1,2,3...n) ei=yiyi^=yi(β0^+β1^xi)(i=1,2,3...n)
残差在研究模型的适应性,以及在探测是否违背基本假设中扮演着重要的角色。

2.2.2 最小二乘估计量的性质与回归模型拟合

 最小二乘估计量 β 0 ^ \hat{\beta_0} β0^, β 1 ^ \hat{\beta_1} β1^具有若干重要的性质。首先呢,我们容易发现 β 0 ^ \hat{\beta_0} β0^, β 1 ^ \hat{\beta_1} β1^是观测值 y i y_i yi的线性组合。举例来说,
β 1 ^ = S x y S x x = ∑ i = 1 n c i y i \hat{\beta_1}=\frac{S_{xy}}{S_{xx}}=\sum_{i=1}^nc_iy_i β1^=SxxSxy=i=1nciyi
在式中, c i = ( x i − x ˉ ) / S x x c_i=(x_i-\bar{x})/S_{xx} ci=(xixˉ)/Sxx

  1. 最小二乘法估计量 β 0 ^ \hat{\beta_0} β0^, β 1 ^ \hat{\beta_1} β1^式模型参数 β 0 {\beta_0} β0, β 1 {\beta_1} β1无偏估计量(如果需要证明,请留言。)
  2. 高斯-马尔可夫定理: 对于满足假设 E ( ε ) = 0 , V a r ( ε ) = σ 2 E(\varepsilon)=0,Var(\varepsilon)=\sigma ^2 E(ε)=0,Var(ε)=σ2以及误差不相关的回归模型方程 y i = β 0 + β 1 x i + ε i ( i = 1 , 2 , . . . , n ) y_i=\beta_0+\beta_1x_i+\varepsilon_i \qquad (i=1,2,...,n) yi=β0+β1xi+εi(i=1,2,...,n),最小二乘法的估计量是无偏的,同时相比其他同为 y i y_i yi线性组合的无偏估计量,最小二乘法估计量的方差最小。通常称 最小二乘法估计量是 最佳线性无偏估计量,其中“最佳”意味着方差最小。
  3. 所有含有截距项 β 0 \beta_0 β0的回归模型其残差之和恒为0,也就是说
    ∑ i = 1 n ( y i − y i ^ ) = ∑ i = 1 n e i = 0 \sum_{i=1}^n(y_i-\hat{y_i})=\sum_{i=1}^ne_i=0 i=1n(yiyi^)=i=1nei=0
  4. 观测值 y i y_i yi的和总是恒等于拟合值 y i ^ \hat{y_i} yi^的和,即
    ∑ i = 1 n y i = ∑ i = 1 n y i ^ \sum_{i=1}^ny_i=\sum_{i=1}^n\hat{y_i} i=1nyi=i=1nyi^
  5. 最小二乘回归直线总是穿过数据的中点 ( y ˉ , x ˉ ) (\bar{y},\bar{x}) (yˉ,xˉ)
  6. 以对应回归变量值为权重的残差之和恒等于0,也就是说
    ∑ i = 1 n x i e i = 0 \sum_{i=1}^nx_ie_i=0 i=1nxiei=0
  7. 以对应拟合值为权重的残差之和也恒等于0,也就是说
    ∑ i = 1 n y i e i = 0 \sum_{i=1}^ny_ie_i=0 i=1nyiei=0

2.2.3 σ 2 \sigma^2 σ2的估计

假设检验以及构造与回归模型有关的区间估计都需要 σ 2 \sigma^2 σ2的估计值。理想情况下需要这一估计值与模型拟合的适应性无关,这只有在对至少一个x值有若干个y的观测值,或者能够获得与 σ 2 \sigma^2 σ2的先验信息时,才是有可能的。如果不能使用上面的方法得到 σ 2 \sigma^2 σ2的估计值,就要通过残差平方和,即 误差平方和 来求得:
S S 残 = ∑ i = 1 n e i 2 = ∑ i = 1 n ( y i − y i ^ ) 2 SS_残=\sum_{i=1}^ne_i^2=\sum_{i=1}^n(y_i-\hat{y_i})^2 SS=i=1nei2=i=1n(yiyi^)2
y i ^ = β 0 ^ + β 1 ^ x i \hat{y_i}=\hat{\beta_0}+\hat{\beta_1}x_i yi^=β0^+β1^xi代入方程,我们得到:
S S 残 = ∑ i = 1 n ( y i − ( β 0 ^ + β 1 ^ x i ) ) 2 = ∑ i = 1 n ( y i − ( y ˉ − x ˉ β ^ 1 + β 1 ^ x i ) ) 2 ∑ i = 1 n y i 2 − n y ˉ 2 − β ^ 1 ∑ x = 1 n y i ( x i − x ˉ ) 2 = ∑ i = 1 n y i 2 − n y ˉ 2 − β ^ 1 S x y SS_残=\sum_{i=1}^n(y_i-(\hat{\beta_0}+\hat{\beta_1}x_i))^2\\= \sum_{i=1}^n(y_i-(\bar{y}-\bar{x}\hat\beta_1+\hat{\beta_1}x_i))^2 \\ \sum_{i=1}^ny_i^2-n\bar{y}^2-\hat{\beta}_1\sum_{x=1}^ny_i(x_i-\bar{x})^2 \\= \sum_{i=1}^ny_i^2-n\bar{y}^2-\hat{\beta}_1S_{xy} SS=i=1n(yi(β0^+β1^xi))2=i=1n(yi(yˉxˉβ^1+β1^xi))2i=1nyi2nyˉ2β^1x=1nyi(xixˉ)2=i=1nyi2nyˉ2β^1Sxy

∑ i = 1 n y i 2 − n y ˉ 2 = ∑ i = 1 n ( y i − y ˉ ) 2 = S S 总 \sum_{i=1}^ny_i^2-n\bar{y}^2=\sum_{i=1}^n(y_i-\bar y)^2=SS_总 i=1nyi2nyˉ2=i=1n(yiyˉ)2=SS
恰是响应变量观测值的校正平方和,所以,
S S 残 = S S 总 − β ^ 1 S x y SS_残=SS_总-\hat\beta_1S_{xy} SS=SSβ^1Sxy
残差平方和有n-2个自由度,这是因为两个自由度与得到 y ^ i \hat y_i y^i的估计值 β 0 ^ \hat{\beta_0} β0^, β 1 ^ \hat{\beta_1} β1^相关。另外我们可以证明 S S 残 SS_残 SS的期望值为 E ( S S 残 ) = ( n − 2 ) σ 2 E(SS_残)=(n-2)\sigma^2 E(SS)=(n2)σ2,所以方差的无偏估计量为:
σ 2 = S S 残 n − 2 = M S 残 \sigma^2=\frac{SS_残}{n-2}=MS_残 σ2=n2SS=MS
在上式中, M S 残 MS_残 MS为残差均方, σ 2 \sigma^2 σ2的平方根有时候称为回归标准误差,回归标准误差与响应变量y具有相同的单位。
因为 σ 2 \sigma^2 σ2取决于残差平方和,所以任何模型误差的假设的违背或者对模型形式的误设都可能严重影响 σ 2 \sigma^2 σ2的估计值 σ ^ 2 \hat\sigma^2 σ^2的实用性,因为 σ ^ 2 \hat\sigma^2 σ^2是由回归模型的残差获得,所以称 σ 2 \sigma^2 σ2的估计值是模型依赖的。

2.2.4 简单线性回归的另外一种形式

y ^ = y ˉ + β 1 ^ ( x − x ˉ ) \hat{y}=\bar{y}+\hat{\beta_1}(x-\bar x) y^=yˉ+β1^(xxˉ)

2.3 斜率与截距的假设检验

我们假设:误差服从独立正态分布,且均值为0,方差为 σ 2 \sigma^2 σ2,简写为NID(0, σ 2 \sigma^2 σ2)

2.3.1 使用t检验

假设希望检验斜率等于常数这一个假设,称这一假设为 β 10 \beta_{10} β10,恰当的假设为
H 0 : β 1 = β 10 H 1 : β 1 ≠ β 10 H_0:\beta_1=\beta_{10} \qquad H_1:\beta_1 \neq\beta_{10} H0:β1=β10H1:β1=β10
式中设定了一个双侧检验。由于误差 ε i \varepsilon _i εi服从NID(0, σ 2 \sigma^2 σ2)分布,所以观测值 y i y_i yi服从NID( β 0 + β 1 x i \beta_0+\beta_1x_i β0+β1xi, σ 2 \sigma^2 σ2)分布。 β 1 ^ \hat{\beta_1} β1^是观测值的线性组合,所以使用2.2.2我们知道 β 1 ^ \hat{\beta_1} β1^服从均值为 β 1 \beta_1 β1,方差为 σ 2 / S x x \sigma^2/S_{xx} σ2/Sxx的正态分布。所以,如果 H 0 H_0 H0为真,那么一定有统计量:
Z 0 = β ^ 1 − β 10 σ 2 / S x x Z_0=\frac{\hat\beta_1-\beta_{10}}{\sqrt{\sigma^2/S_{xx}}} Z0=σ2/Sxx β^1β10
服从N(0,1)分布。如果 σ \sigma σ已知,我们就可以使用 Z 0 Z_0 Z0检验假设方程了,然而,一般该参数都是未知的。我们已经看到 M S 残 MS_残 MS σ 2 \sigma^2 σ2的无偏估计量。并且容易验证 ( n − 2 ) M S 残 (n-2)MS_残 (n2)MS服从 X n − 2 2 X^2_{n-2} Xn22分布,且 M S 残 MS_残 MS β 1 ^ \hat{\beta_1} β1^独立,所以给出的t统计量的定义为:
t 0 = β 1 − β 10 ^ M S 残 / S x x t_0=\frac{\hat{\beta_1-\beta_{10}}}{\sqrt{MS_残/S_{xx}}} t0=MS/Sxx β1β10^
如果假设 H 0 H_0 H0为真,那么 t 0 t_0 t0服从 t n − 2 t_{n-2} tn2分布,且其自由度就是 M S 残 MS_残 MS的自由度。所以在检验的时候,检验程序计算了 t 0 t_0 t0,将来自上述方程的 t 0 t_0 t0的观测值与 t n − 2 t_{n-2} tn2分布 ( t α / 2 , n − 2 ) (t_{\alpha/2,n-2}) (tα/2,n2)上的 α / 2 \alpha/2 α/2分位点进行比较。
如果
∣ t 0 ∣ > t α / 2 , n − 2 |t_0|>t_{\alpha/2,n-2} t0>tα/2,n2
这一程序将拒绝原假设,另外P值方法也可以用于决策。
方程中检验统计量 t 0 t_0 t0的分母通常称为斜率的估计标准误差,或者更加精简地称为斜率的标准误差,也就是说
s e ( β 1 ^ ) = M S 残 S x x se(\hat{\beta_1})=\sqrt{\frac{MS_残}{S_{xx}}} se(β1^)=SxxMS
因此,我们可以将 t 0 t_0 t0写成:
t 0 = β ^ 1 − β 10 s e ( β 1 ^ ) t_0=\frac{\hat{\beta}_1-\beta_{10}}{se(\hat{\beta_1})} t0=se(β1^)β^1β10
同理,可以处理用于截距的假设检验。为了检验
H 0 : β 0 = β 00 , H 1 : β 0 ≠ β 00 H_0: \beta_0=\beta_{00}, H_1:\beta_0 \neq \beta_{00} H0:β0=β00,H1:β0=β00
要使用检验统计量:
t 0 = β 0 ^ − β 00 M S 残 ( 1 / n + x ˉ 2 / S x x ) = β 0 ^ − β 00 s e ( β 0 ^ ) t_0=\frac{\hat{\beta_0}-\beta_{00}}{\sqrt{MS_残(1/n+\bar x^2/S_{xx})}}=\frac{\hat{\beta_0}-\beta_{00}}{se(\hat{\beta^0})} t0=MS(1/n+xˉ2/Sxx) β0^β00=se(β0^)β0^β00
式中, s e ( β ˉ 0 ) = M S 残 ( 1 / n + x ˉ 2 / S x x ) se(\bar\beta_0)={\sqrt{MS_残(1/n+\bar x^2/S_{xx})}} se(βˉ0)=MS(1/n+xˉ2/Sxx) 为截距的标准误差。如果 ∣ t 0 ∣ > t α / 2 , n − 2 |t_0|>t_{\alpha/2,n-2} t0>tα/2,n2,则拒绝假设 H 0 H_0 H0

2.4 简单线性回归的区间估计

2.5 新观测值的预测

回归模型的一个重要应用就是预测特定水平的回归变量x对应的新观测值y,如果 x 0 x_0 x0是所感兴趣的回归变量的值,那么
y 0 ^ = β 0 ^ + β 1 ^ x 0 \hat{y_0}=\hat{\beta_0}+\hat{\beta_1}x_0 y0^=β0^+β1^x0
是响应变量 y 0 y_0 y0新值点的估计。
现在考虑如何得到这一未来观测值 y 0 y_0 y0的区间估计。因为在 x = x 0 x=x_0 x=x0处响应变量的均值的置信区间是对y均值的区间估计,不是对来自分布的关于未来观测值的概率表述,所以运用响应变量均值的区间估计方法并不合适。下面研究未来观测值 y 0 y_0 y0的预测区间。
注意随机变量
ψ = y 0 − y 0 ^ \psi=y_0-\hat{y_0} ψ=y0y0^
因为未来观测值 y 0 y_0 y0 y 0 ^ \hat{y_0} y0^独立,所以其服从均值为0,方差为 V a r ( ψ ) = V a r ( y 0 − y 0 ^ ) = σ 2 [ 1 + 1 n + ( x 0 − x ˉ ) 2 S x x ] Var(\psi)=Var(y_0-\hat{y_0})=\sigma^2[1+\frac{1}{n}+\frac{(x_0-\bar x)^2}{S_{xx}}] Var(ψ)=Var(y0y0^)=σ2[1+n1+Sxx(x0xˉ)2]的正态分布。如果使用 y 0 ^ \hat{y_0} y0^来预测 y 0 y_0 y0,那么我们再使用t分布,对于 x 0 x_0 x0处未来的观测值的 100 × ( 1 − α ) % 100\times (1-\alpha) \% 100×(1α)%预测区间为
在这里插入图片描述
在该预测区间中,在 x 0 = x ˉ x_0=\bar x x0=xˉ处宽度最小,并且随着 ∣ x 0 − x ˉ ∣ |x_0-\bar x| x0xˉ的增大而变宽,同时呢,通过对比,我们观察到 x 0 x_0 x0的预测区间总是比 x 0 x_0 x0的置信区间宽,这是因为预测区间既和来自模型拟合的误差有关,也和未来观测值的误差有关。

2.6 决定系数

统计量
R ′ = S S 回 S S 总 = 1 − S S 残 S S 总 R'=\frac{SS_回}{SS_总}=1-\frac{SS_残}{SS_总} R=SSSS=1SSSS
称为决定系数。由于 S S 总 SS_总 SS是对未考虑回归变量x影响的y变异性的考量,而 S S 残 SS_残 SS是对考虑x后剩余的y的变异性的度量,所以 R 2 R^2 R2称为由回归变量x解释的变异性的性质,并且该变量的取值范围是[0,1]。该值越接近1,就表示大部分的y的变异性由回归模型解释。要注意的是,决定系数的大小不是回归直线斜率大小的度量。

2.7 极大似然估计

最小二乘法可以用于线性回归模型的参数估计,产生最佳线性无偏估计量,此时不对误差 ε \varepsilon ε的分布形式做任何的假设。最小二乘法可以产生 β 0 \beta_0 β0 β 1 \beta_1 β1的最佳线性无偏估计量,其他统计过程,比如假设检验与置信区间构造,都假设误差服从正态分布。如果误差的分布形式已知,那么我们就可以使用另外一种参数估计方法——极大似然法
考虑数据 ( y i , x i ) , i = 1 , 2 , . . . , n . (y_i,x_i),i=1,2,...,n. (yi,xi),i=1,2,...,n.假设回归模型中的误差服从 N I D ( 0 , σ 2 ) NID(0,\sigma^2) NID(0,σ2),那么样本的观测值 y i y_i yi服从均值为 β 0 + β 1 x i \beta_0+\beta_1x_i β0+β1xi,方差为 σ 2 \sigma^2 σ2的正态分布,并且独立。似然函数由观测值的联合分布得到。如果考虑给定的观测值的联合分布,并且参数 β 0 , β 1 及 σ 2 \beta_0,\beta_1及\sigma^2 β0,β1σ2为未知参数,那么就有极大函数,对于误差服从正态分布的简单线性回归模型而言,其似然函数为:
L ( y i , x i , β 0 , β 1 , σ 2 ) = ∏ i = 1 n ( 2 π σ 2 ) − 1 / 2 e x p [ − 1 2 σ 2 ( y i − β 0 − β 1 x i ) 2 ] = ( 2 π σ 2 ) − 1 / 2 e x p [ − 1 2 σ 2 ∑ i = 1 n ( y i − β 0 − β 1 x i ) 2 ] L(y_i,x_i,\beta_0,\beta_1,\sigma^2)=\prod_{i=1}^n (2\pi \sigma^2)^{-1/2}exp[-\frac{1}{2\sigma^2}(y_i-\beta_0-\beta_1x_i)^2] \\= (2\pi \sigma^2)^{-1/2}exp[-\frac{1}{2\sigma^2}\sum_{i=1}^n(y_i-\beta_0-\beta_1x_i)^2] L(yi,xi,β0,β1,σ2)=i=1n(2πσ2)1/2exp[2σ21(yiβ0β1xi)2]=(2πσ2)1/2exp[2σ21i=1n(yiβ0β1xi)2]
极大似然估计量的参数值记为 β 0 ~ , β 1 ~ , σ ~ 2 \tilde{\beta_0},\tilde{\beta_1},\tilde{\sigma}^2 β0~,β1~,σ~2.最大化L或与等价的lnL为:
l n L ( y i , x i , β 0 , β 1 , σ 2 ) = − ( n 2 ) l n 2 π − ( n 2 ) l n σ 2 − 1 2 σ 2 ∑ i = 1 n ( y i − β 0 − β 1 x i ) 2 lnL(y_i,x_i,\beta_0,\beta_1,\sigma^2)=-(\frac{n}{2})ln2\pi-(\frac{n}{2})ln\sigma^2-\frac{1}{2\sigma^2}\sum_{i=1}^n(y_i-\beta_0-\beta_1x_i)^2 lnL(yi,xi,β0,β1,σ2)=(2n)ln2π(2n)lnσ22σ21i=1n(yiβ0β1xi)2
而,最大似然估计量 β 0 ~ , β 1 ~ , σ ~ 2 \tilde{\beta_0},\tilde{\beta_1},\tilde{\sigma}^2 β0~,β1~,σ~2必须满足:
∂ l n L ∂ β 0 ∣ β 0 ~ , β 1 ~ , σ ~ 2 = 1 σ ~ 2 ∑ i = 1 n ( y i − β 0 ~ − β 1 ~ x i ) = 0 ∂ l n L ∂ β 1 ∣ β 0 ~ , β 1 ~ , σ ~ 2 = 1 σ ~ 2 ∑ i = 1 n ( y i − β 0 ~ − β 1 ~ x i ) x i = 0 ∂ l n L ∂ σ 2 ∣ β 0 ~ , β 1 ~ , σ ~ 2 = − n 2 σ ~ 2 + 1 2 σ ~ 4 ∑ i = 1 n ( y i − β 0 ~ − β 1 ~ x i ) 2 = 0 \left.\dfrac{\partial lnL}{\partial\beta_0}\right|_{\tilde{\beta_0},\tilde{\beta_1},\tilde{\sigma}^2}=\frac{1}{\tilde{\sigma}^2}\sum_{i=1}^n(y_i-\tilde{\beta_0}-\tilde{\beta_1}x_i)=0\\ \left.\dfrac{\partial lnL}{\partial\beta_1}\right|_{\tilde{\beta_0},\tilde{\beta_1},\tilde{\sigma}^2}=\frac{1}{\tilde{\sigma}^2}\sum_{i=1}^n(y_i-\tilde{\beta_0}-\tilde{\beta_1}x_i)x_i=0\\ \left.\dfrac{\partial lnL}{\partial\sigma^2}\right|_{\tilde{\beta_0},\tilde{\beta_1},\tilde{\sigma}^2}=-\frac{n}{2\tilde{\sigma}^2}+\frac{1}{2\tilde{\sigma}^4}\sum_{i=1}^n(y_i-\tilde{\beta_0}-\tilde{\beta_1}x_i)^2=0\\ β0lnLβ0~,β1~,σ~2=σ~21i=1n(yiβ0~β1~xi)=0β1lnLβ0~,β1~,σ~2=σ~21i=1n(yiβ0~β1~xi)xi=0σ2lnLβ0~,β1~,σ~2=2σ~2n+2σ~41i=1n(yiβ0~β1~xi)2=0
通过解上面的方程我们得到了极大似然估计量为
β 0 ~ = y ˉ − β 1 ~ x ˉ β 1 ~ = ∑ i = 1 n y i ( x i − x ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 σ ~ 2 = ∑ i = 1 n ( y i − β 0 ~ − β 1 ~ x i ) 2 n \tilde{\beta_0}=\bar y-\tilde{\beta_1}\bar x \\ \tilde{\beta_1}=\frac{\sum_{i=1}^n y_i(x_i-\bar x)}{\sum_{i=1}^n(x_i-\bar x)^2}\\ \tilde{\sigma}^2=\frac{\sum_{i=1}^n(y_i-\tilde{\beta_0}-\tilde{\beta_1}x_i)^2}{n} β0~=yˉβ1~xˉβ1~=i=1n(xixˉ)2i=1nyi(xixˉ)σ~2=ni=1n(yiβ0~β1~xi)2
注意,截距与斜率的极大似然估计量 β 0 ~ , β 1 ~ \tilde{\beta_0},\tilde{\beta_1} β0~,β1~都与其最小二乘估计量相同。同时 σ ~ 2 \tilde{\sigma}^2 σ~2 σ 2 \sigma^2 σ2的有偏估计量,并且有偏估计量 σ ~ 2 \tilde{\sigma}^2 σ~2和无偏估计量 σ ^ 2 \hat{\sigma}^2 σ^2的关系为 σ ~ 2 = [ ( n − 1 ) / n ] σ 2 \tilde{\sigma}^2=[(n-1)/n]\sigma^2 σ~2=[(n1)/n]σ2,当n为中等程度的大小时,偏倚较小。一般情况下,我们使用的都是无偏估计量 σ ^ 2 \hat{\sigma}^2 σ^2
一般情况下,最大似然估计有比最小二乘法更好的统计性质。极大似然估计是无偏的,相比其他的无偏估计量,该估计量的方最小。极大似然估计是一致估计量,也是一组充分统计量。
但是另一方面呢,极大似然估计比最小二乘法估计量需要更为严格的统计假设。最小二乘估计量只需二阶矩阵假设,而最大似然估计量需要关于分布的完整假设。在这种情况下,随机误差服从正态分布,其二阶矩与最小二乘法所需要的假设相同。

总结

这大概就是线性回归的基本知识点了,如果有错误,欢迎在评论区进行指正。

在Jupyter Notebook中,我们可以使用Python编程语言来进行多元线性回归讲解。多元线性回归是指有多个自变量的线性回归模型,它可以用于探索多个特征之间的相关性,并建立一个线性方程来预测因变量。在Jupyter Notebook中,我们可以使用Pandas库来加载和处理数据,使用Scikit-Learn库来建立线性回归模型,并使用Matplotlib库来可视化结果。 首先,我们需要导入所需的库。在Jupyter Notebook中,我们可以使用以下代码导入Pandas、Scikit-Learn和Matplotlib库: import pandas as pd from sklearn.linear_model import LinearRegression import matplotlib.pyplot as plt 接下来,我们需要加载数据集并进行预处理。可以使用Pandas库的read_csv函数来加载CSV文件,并使用DataFrame来处理数据。我们可以使用以下代码来加载数据集: data = pd.read_csv('data.csv') 然后,我们可以选择自变量和因变量,并将它们分别存储在X和y变量中。例如,如果我们的数据集包含两个自变量(特征1和特征2)和一个因变量(目标变量),我们可以使用以下代码来选择自变量和因变量: X = data[['feature1', 'feature2']] y = data['target'] 接下来,我们可以使用Scikit-Learn库的LinearRegression模型来建立多元线性回归模型。我们可以使用以下代码来建立模型并拟合数据: model = LinearRegression() model.fit(X, y) 最后,我们可以使用Matplotlib库来可视化多元线性回归模型的结果。我们可以使用散点图来表示原始数据,并使用回归方程的线来表示模型的预测结果。以下是一个简单的示例代码: plt.scatter(X['feature1'], y, color='blue', label='Actual') plt.plot(X['feature1'], model.predict(X), color='red', label='Predicted') plt.xlabel('Feature 1') plt.ylabel('Target') plt.legend() plt.show() 通过以上步骤,我们可以在Jupyter Notebook中进行多元线性回归讲解,并使用可视化工具来展示模型的预测结果。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [机器学习系列6 使用Scikit-learn构建回归模型:简单线性回归、多项式回归与多元线性回归](https://blog.csdn.net/qq_45590504/article/details/124433493)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Wumbuk

您的支持是我坚持的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值