东北大学应用数理统计第五章知识点总结——线性回归模型

线性回归模型

一、线性模型理论

1.1 定义

y = β 0 + ∑ i = 1 k f i ( x 1 , ⋅ ⋅ ⋅ , x m ) β i + ε , ε ⇔ N ( 0 , σ 2 ) y = \beta_0 + \sum_{i=1}^{k}f_i(x_1,···,x_m)\beta_i + \varepsilon, \varepsilon \Leftrightarrow N(0, \sigma^2) y=β0+i=1kfi(x1,,xm)βi+ε,εN(0,σ2)

  • “线性”是针对未知参数 β \beta β 而言,许多表面上的非线性模型本质也是线性的
  • E y = β 0 + x 1 β 1 + . . . + x k β k Ey = \beta_0 + x_1\beta_1 + ... + x_k\beta_k Ey=β0+x1β1+...+xkβk , [ x ] [x] [x] 是自变量, y y y 是因变量
  • y = β 0 + x 1 β 1 + . . . + x k β k + ε , E ε = 0 y = \beta_0 + x_1\beta_1 + ... + x_k\beta_k + \varepsilon, E\varepsilon = 0 y=β0+x1β1+...+xkβk+ε,Eε=0
1.2 参数的估计

Y = X β + ε Y = X\beta + \varepsilon Y=Xβ+ε
1、未知参数 β \beta β 的估计:最小二乘估计(LSE)

  • ∣ ∣ Y − X β ^ ∣ ∣ 2 = i n f ∣ ∣ Y − X β ∣ ∣ 2 , β ∈ R k + 1 ||Y-X\hat{\beta}||^2 = inf||Y-X\beta||^2,\beta \in R^{k+1} YXβ^2=infYXβ2,βRk+1
  • 求解思路:平方和分解
    ∣ ∣ Y − X β ∣ ∣ 2 = ∣ ∣ Y − X β ^ ∣ ∣ 2 + ∣ ∣ X ( β ^ − β ) ∣ ∣ 2 + 2 ( β ^ − β ) T X T ( Y − X β ^ ) ||Y-X\beta||^2 = ||Y-X\hat{\beta}||^2 + ||X(\hat{\beta} - \beta)||^2 + 2(\hat{\beta} - \beta)^T X^T (Y-X\hat{\beta}) YXβ2=YXβ^2+X(β^β)2+2(β^β)TXT(YXβ^)
    2 ( β ^ − β ) T X T ( Y − X β ^ ) = 0 2(\hat{\beta} - \beta)^T X^T (Y-X\hat{\beta}) = 0 2(β^β)TXT(YXβ^)=0
  • 正规方程: ( X T X ) β ^ = X T Y (X^TX)\hat{\beta} = X^TY (XTX)β^=XTY
    β ^ = ( X T X ) − 1 X T Y = S − 1 X T Y \hat{\beta} = (X^TX)^{-1}X^TY = S^{-1}X^TY β^=(XTX)1XTY=S1XTY
  • 经验回归函数: X β ^ X\hat{\beta} Xβ^
  • 经验回归方程: Y = X β ^ Y = X\hat{\beta} Y=Xβ^

2、误差方差 σ 2 \sigma^2 σ2 的估计
y i = β 0 + β 1 x i 1 + . . . + β k x i k + ε i , 1 ≤ i ≤ n y_i = \beta_0 + \beta_1x_{i1} + ... + \beta_kx_{ik} + \varepsilon_i,1\le i\le n yi=β0+β1xi1+...+βkxik+εi,1in

  • 残差
    e i = y i − β 0 ^ + β 1 ^ x i 1 + . . . + β k ^ x i k e_i = y_i - \hat{\beta_0} + \hat{\beta_1}x_{i1} + ... + \hat{\beta_k}x_{ik} ei=yiβ0^+β1^xi1+...+βk^xik
  • 残差平方和
    Q e = e 1 2 + e 2 2 + . . . + e n 2 = ∣ ∣ Y − X β ^ ∣ ∣ 2 = Y T ( I n − X S − 1 X T ) Y Q_e = e_1^2 + e_2^2 + ... + e_n^2 = ||Y-X\hat{\beta}||^2 = Y^T(I_n - XS^{-1}X^T)Y Qe=e12+e22+...+en2=YXβ^2=YT(InXS1XT)Y

3、线性模型的最小二乘估计

  • β \beta β L S E LSE LSE
    β ^ = ( X T X ) − 1 X T Y = S − 1 X T Y \hat{\beta} = (X^TX)^{-1}X^TY = S^{-1}X^TY β^=(XTX)1XTY=S1XTY
  • σ 2 \sigma^2 σ2 L S E LSE LSE
    σ ^ 2 = 1 n − k − 1 Y T ( I n − X S − 1 X T ) Y \hat{\sigma}^2 = \frac{1}{n-k-1}Y^T(I_n - XS^{-1}X^T)Y σ^2=nk11YT(InXS1XT)Y

4、最小二乘估计的无偏性质

  • E ( Y T A Y ) = ( E Y ) T A ( E Y ) + t r { A [ V a r ( Y ) ] } E(Y^TAY) = (EY)^TA(EY) + tr\{A[Var(Y)]\} E(YTAY)=(EY)TA(EY)+tr{A[Var(Y)]}
  • E Y = X β , V a r ( Y ) = σ 2 I n EY=X\beta, Var(Y) = \sigma^2I_n EY=Xβ,Var(Y)=σ2In
  • β ^ = ( X T X ) − 1 X T Y \hat{\beta} = (X^TX)^{-1}X^TY β^=(XTX)1XTY 是无偏估计
  • 残差平方和的数学期望是: E ( Q e ) = ( n − k − 1 ) σ 2 E(Q_e) = (n-k-1) \sigma^2 E(Qe)=(nk1)σ2
1.3 估计量的分布
  • β ^ = S − 1 X T Y \hat{\beta} = S^{-1}X^TY β^=S1XTY ~ N ( β , σ 2 S − 1 ) N(\beta, \sigma^2S^{-1}) N(β,σ2S1)
  • n − k − 1 σ 2 σ ^ 2 = 1 σ 2 Y T ( I n − X S − 1 X T ) Y \frac{n-k-1}{\sigma^2}\hat{\sigma}^2 = \frac{1}{\sigma^2}Y^T(I_n - XS^{-1}X^T)Y σ2nk1σ^2=σ21YT(InXS1XT)Y ~ χ 2 ( n − k − 1 ) \chi^2(n-k-1) χ2(nk1)
  • β ^ \hat{\beta} β^ σ ^ 2 \hat{\sigma}^2 σ^2 相互独立

二、一元回归与相关分析

1.1 定义

1、回归分析:研究一个(或多个)自变量的变化如何影响因变量。
2、相关分析:研究这两个数值变量的相关程度。
3、回归方程
y = β 0 + x 1 β 1 + . . . + x k β k y = \beta_0 + x_1\beta_1 + ... + x_k\beta_k y=β0+x1β1+...+xkβk

1.2 一元线性回归模型

y i = β 0 + β 1 x i + ε i ,       1 ≤ i ≤ n y_i = \beta_0 + \beta_1x_i + \varepsilon_i, \,\,\,\,\, 1 \le i \le n yi=β0+β1xi+εi,1in

  • β 0 ^ = y ‾ − β 1 ^ x ‾ \hat{\beta_0} = \overline{y} - \hat{\beta_1}\overline{x} β0^=yβ1^x
  • β 1 ^ = L x y L x x \hat{\beta_1} = \frac{L_{xy}}{L_{xx}} β1^=LxxLxy
  • σ ^ 2 = 1 n − 2 ( L y y − β 1 ^ L x y ) \hat{\sigma}^2 = \frac{1}{n-2}(L_{yy} - \hat{\beta_1}L_{xy}) σ^2=n21(Lyyβ1^Lxy)
1.2 简单的相关分析

T S S = R e g S S + R S S TSS = RegSS + RSS TSS=RegSS+RSS

  • 总(变差)平方和
    T S S = ∑ i = 1 n ( y i − y ‾ ) 2 TSS = \sum_{i=1}^n(y_i - \overline{y})^2 TSS=i=1n(yiy)2
  • 回归平方和
    R e g S S = ∑ i = 1 n ( y i ^ − y ‾ ) 2 RegSS = \sum_{i=1}^n(\hat{y_i} - \overline{y})^2 RegSS=i=1n(yi^y)2
  • 残差平方和
    R S S = ∑ i = 1 n ( y i − y i ^ ) 2 RSS = \sum_{i=1}^n(y_i - \hat{y_i})^2 RSS=i=1n(yiyi^)2
  • 相关系数 r r r
    r 2 = R e g S S T S S = L x y 2 L x x L y y r^2 = \frac{RegSS}{TSS} = \frac{L_{xy}^2}{L_{xx}L_{yy}} r2=TSSRegSS=LxxLyyLxy2
1.3 回归方程的检验与区间估计

1、回归系数的假设检验

  • H 0 : β 1 = 0 H_0: \beta_1 = 0 H0:β1=0
  • β 0 ^ \hat{\beta_0} β0^ ~ N ( β 0 , σ 2 ( 1 n + x ‾ 2 L x x ) ) N(\beta_0, \sigma^2(\frac{1}{n} + \frac{\overline{x}^2}{L_{xx}})) N(β0,σ2(n1+Lxxx2))
  • β 1 ^ \hat{\beta_1} β1^ ~ N ( β 1 , σ 2 L x x ) N(\beta_1, \frac{\sigma^2}{L_{xx}}) N(β1,Lxxσ2)
  • β 0 ^ \hat{\beta_0} β0^ β 1 ^ \hat{\beta_1} β1^不独立,协方差为
    C o v ( β 0 ^ , β 1 ^ ) = − σ 2 x ‾ L x x Cov(\hat{\beta_0}, \hat{\beta_1}) = -\sigma^2 \frac{\overline{x}}{L_{xx}} Cov(β0^,β1^)=σ2Lxxx
  • σ 2 \sigma^2 σ2 β 0 ^ \hat{\beta_0} β0^ β 1 ^ \hat{\beta_1} β1^都独立,并且
    n − 2 σ 2 σ ^ 2 ⇔ χ 2 ( n − 2 ) \frac{n-2}{\sigma^2} \hat{\sigma}^2 \Leftrightarrow \chi^2(n-2) σ2n2σ^2χ2(n2)
  • 要检验回归关系是否显著,可以利用 t t t 分布
    β 1 ^ σ ^ ∑ i = 1 n ( x i − x ‾ ) 2 ⇔ t ( n − 2 ) \frac{\hat{\beta_1}}{\hat{\sigma}}\sqrt{\sum_{i=1}^n(x_i-\overline{x})^2} \Leftrightarrow t(n-2) σ^β1^i=1n(xix)2 t(n2)
  • 更多的是采用
    β 1 ^ σ ^ L x x ⇔ F ( 1 , n − 2 ) ⇔ ( n − 2 ) L x y 2 L x x L y y − L x y 2 \frac{\hat{\beta_1}}{\hat{\sigma}}L_{xx} \Leftrightarrow F(1,n-2) \Leftrightarrow \frac{(n-2)L_{xy}^2}{L_{xx}L_{yy} - L_{xy}^2} σ^β1^LxxF(1,n2)LxxLyyLxy2(n2)Lxy2
  • 否定域
    F = ( n − 2 ) r 2 ( 1 − r 2 ) > F 0.05 ( 1 , n − 2 ) F = \frac{(n-2)r^2}{(1-r^2)} > F_{0.05}(1,n-2) F=(1r2)(n2)r2>F0.05(1,n2)

2、回归系数的区间估计
β 1 ^ σ ^ ∑ i = 1 n ( x i − x ‾ ) 2 ⇔ t ( n − 2 ) \frac{\hat{\beta_1}}{\hat{\sigma}}\sqrt{\sum_{i=1}^n(x_i-\overline{x})^2} \Leftrightarrow t(n-2) σ^β1^i=1n(xix)2 t(n2)
β 1 ^ − σ ^ ∑ i = 1 n ( x i − x ‾ ) 2 t α / 2 ( n − 2 ) — — β 1 ^ + σ ^ ∑ i = 1 n ( x i − x ‾ ) 2 t α / 2 ( n − 2 ) \hat{\beta_1} - \frac{\hat{\sigma}}{\sqrt{\sum_{i=1}^n(x_i-\overline{x})^2}}t_{\alpha/2}(n-2) —— \hat{\beta_1} + \frac{\hat{\sigma}}{\sqrt{\sum_{i=1}^n(x_i-\overline{x})^2}}t_{\alpha/2}(n-2) β1^i=1n(xix)2 σ^tα/2(n2)β1^+i=1n(xix)2 σ^tα/2(n2)

1.4 回归方程的预测与控制

1、回归方程的预测
y 0 − y 0 ∗ ⇔ N ( 0 , σ 2 [ 1 + 1 n + ( x 0 − x ‾ ) 2 ∑ i = 1 n ( x i − x ‾ ) 2 ] ) y_0 - y_0^* \Leftrightarrow N(0, \sigma^2[1 + \frac{1}{n} + \frac{(x_0 - \overline{x} )^2}{\sum_{i=1}^n (x_i - \overline{x})^2}]) y0y0N(0,σ2[1+n1+i=1n(xix)2(x0x)2])
β 0 ^ + β 1 x 0 − h ^ — — β 0 ^ + β 1 x 0 + h ^ \hat{\beta_0} + \hat{\beta_1 x_0 - h}——\hat{\beta_0} + \hat{\beta_1 x_0 + h} β0^+β1x0h^β0^+β1x0+h^
h = t α / 2 ( n − 2 ) σ ^ 1 + 1 n + ( x 0 − x ‾ ) 2 ∑ i = 1 n ( x i − x ‾ ) 2 h = t_{\alpha/2}(n-2)\hat{\sigma}\sqrt{1 + \frac{1}{n} + \frac{(x_0 - \overline{x} )^2}{\sum_{i=1}^n (x_i - \overline{x})^2}} h=tα/2(n2)σ^1+n1+i=1n(xix)2(x0x)2
2、回归方程的控制

  • 上述方程与下两个方程同时成立:
    A ≤ y 0 ∗ − h        y 0 ∗ + h ≤ B A \le y_0^* - h \,\,\,\,\,\, y_0^* + h \le B Ay0hy0+hB

3、注意

  • 实际问题中回归模型的建立要依赖于专业知识,并且注意散点图的使用
  • 即使回归模型通过了检验也只能认为所研究的变量是统计相关的
  • 回归分析一般需要与相关分析结合起来
  • 异方差性、序列相关性、多重共线性问题

三、多元回归分析

1.1 未知参数的估计
  • 同上
1.2 回归模型的检验
  • H 0 : β 1 = β 2 = . . . = β k = 0 H_0: \beta_1 = \beta_2 = ... = \beta_k = 0 H0:β1=β2=...=βk=0
    T S S = ∑ i = 1 n ( y i − y ‾ ) 2 , R e g S S = ∑ i = 1 n ( y i ^ − y ‾ ) 2 , R S S = ∑ i = 1 n ( y i − y i ^ ) 2 TSS = \sum_{i=1}^n(y_i - \overline{y})^2, RegSS = \sum_{i=1}^n(\hat{y_i} - \overline{y})^2,RSS = \sum_{i=1}^n(y_i - \hat{y_i})^2 TSS=i=1n(yiy)2,RegSS=i=1n(yi^y)2,RSS=i=1n(yiyi^)2
    R S S σ 2 ⇔ χ 2 ( n − k − 1 ) \frac{RSS}{\sigma^2} \Leftrightarrow \chi^2(n-k-1) σ2RSSχ2(nk1)
    R e g S S σ 2 ⇔ χ 2 ( k ) \frac{RegSS}{\sigma^2} \Leftrightarrow \chi^2(k) σ2RegSSχ2(k)
    F = n − k − 1 k R e g S S R S S ↔ F ( k , n − k − 1 ) F = \frac{n-k-1}{k} \frac{RegSS}{RSS} \leftrightarrow F(k, n-k-1) F=knk1RSSRegSSF(k,nk1)
1.3 回归因子的挑选
  • 逐步回归的想法:
    H 0 i : β i = 0 ⇔ H 1 i : β i ≠ 0 H_{0i}: \beta_i = 0 \Leftrightarrow H_{1i}: \beta_i ≠ 0 H0iβi=0H1i:βi=0
  • t t t 检验,自由度 n − k − 1 n - k - 1 nk1
    T i = β i ^ c i i σ ^ T_i = \frac{\hat{\beta_i}}{\sqrt{c_{ii}}\hat{\sigma}} Ti=cii σ^βi^
  • F F F 检验
    F i = β i ^ 2 c i i σ ^ 2 F_i = \frac{\hat{\beta_i}^2}{c_{ii}\hat{\sigma}^2} Fi=ciiσ^2βi^2
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值