东北大学应用数理统计第五章知识点总结——线性回归模型

最新推荐文章于 2022-10-23 22:13:47 发布

笛语星落——一只在编程路上不断爬起的小白

最新推荐文章于 2022-10-23 22:13:47 发布

阅读量1k

点赞数 3

分类专栏：应用数理统计

本文链接：https://blog.csdn.net/qq_36770651/article/details/110563244

版权

应用数理统计专栏收录该内容

10 篇文章 36 订阅

订阅专栏

线性回归模型

一、线性模型理论

1.1 定义

$\beta_0 + \sum_{i=1}^{k}f_i(x_1,···,x_m)\beta_i + \varepsilon, \varepsilon \Leftrightarrow N(0, \sigma^2)$

“线性”是针对未知参数 $\beta$ 而言，许多表面上的非线性模型本质也是线性的
$\beta_0 + x_1\beta_1 + ... + x_k\beta_k$ , $[x]$ 是自变量， $y$ 是因变量
$\beta_0 + x_1\beta_1 + ... + x_k\beta_k + \varepsilon, E\varepsilon = 0$

1.2 参数的估计

$X\beta + \varepsilon$
1、未知参数 $\beta$ 的估计：最小二乘估计（LSE）

$||Y-X\hat{\beta}||^2 = inf||Y-X\beta||^2,\beta \in R^{k+1}$
求解思路：平方和分解
$||Y-X\beta||^2 = ||Y-X\hat{\beta}||^2 + ||X(\hat{\beta} - \beta)||^2 + 2(\hat{\beta} - \beta)^T X^T (Y-X\hat{\beta})$
$2(\hat{\beta} - \beta)^T X^T (Y-X\hat{\beta}) = 0$
正规方程： $(X^TX)\hat{\beta} = X^TY$
$\hat{\beta} = (X^TX)^{-1}X^TY = S^{-1}X^TY$
经验回归函数： $X\hat{\beta}$
经验回归方程： $X\hat{\beta}$

2、误差方差 $\sigma^2$ 的估计
$y_i = \beta_0 + \beta_1x_{i1} + ... + \beta_kx_{ik} + \varepsilon_i,1\le i\le n$

残差
$e_i = y_i - \hat{\beta_0} + \hat{\beta_1}x_{i1} + ... + \hat{\beta_k}x_{ik}$
残差平方和
$Q_e = e_1^2 + e_2^2 + ... + e_n^2 = ||Y-X\hat{\beta}||^2 = Y^T(I_n - XS^{-1}X^T)Y$

3、线性模型的最小二乘估计

$\beta$ 的 $L S E$ 是
$\hat{\beta} = (X^TX)^{-1}X^TY = S^{-1}X^TY$
$\sigma^2$ 的 $L S E$ 是
$\hat{\sigma}^2 = \frac{1}{n-k-1}Y^T(I_n - XS^{-1}X^T)Y$

4、最小二乘估计的无偏性质

$E(Y^TAY) = (EY)^TA(EY) + tr\{A[Var(Y)]\}$
$EY=X\beta, Var(Y) = \sigma^2I_n$
$\hat{\beta} = (X^TX)^{-1}X^TY$ 是无偏估计
残差平方和的数学期望是： $E(Q_e) = (n-k-1) \sigma^2$

1.3 估计量的分布

$\hat{\beta} = S^{-1}X^TY$ ~ $N(\beta, \sigma^2S^{-1})$
$\frac{n-k-1}{\sigma^2}\hat{\sigma}^2 = \frac{1}{\sigma^2}Y^T(I_n - XS^{-1}X^T)Y$ ~ $\chi^2(n-k-1)$
$\hat{\beta}$ 与 $\hat{\sigma}^2$ 相互独立

二、一元回归与相关分析

1.1 定义

1、回归分析：研究一个（或多个）自变量的变化如何影响因变量。
2、相关分析：研究这两个数值变量的相关程度。
3、回归方程
$\beta_0 + x_1\beta_1 + ... + x_k\beta_k$

1.2 一元线性回归模型

$y_i = \beta_0 + \beta_1x_i + \varepsilon_i, \,\,\,\,\, 1 \le i \le n$

$\hat{\beta_0} = \overline{y} - \hat{\beta_1}\overline{x}$
$\hat{\beta_1} = \frac{L_{xy}}{L_{xx}}$
$\hat{\sigma}^2 = \frac{1}{n-2}(L_{yy} - \hat{\beta_1}L_{xy})$

1.2 简单的相关分析

$T S S = R e g S S + R S S$

总（变差）平方和
$\sum_{i=1}^n(y_i - \overline{y})^2$
回归平方和
$\sum_{i=1}^n(\hat{y_i} - \overline{y})^2$
残差平方和
$\sum_{i=1}^n(y_i - \hat{y_i})^2$
相关系数 $r$
$r^2 = \frac{RegSS}{TSS} = \frac{L_{xy}^2}{L_{xx}L_{yy}}$

1.3 回归方程的检验与区间估计

1、回归系数的假设检验

$H_0: \beta_1 = 0$
$\hat{\beta_0}$ ~ $N(\beta_0, \sigma^2(\frac{1}{n} + \frac{\overline{x}^2}{L_{xx}}))$
$\hat{\beta_1}$ ~ $N(\beta_1, \frac{\sigma^2}{L_{xx}})$
$\hat{\beta_0}$ 与 $\hat{\beta_1}$ 不独立，协方差为
$Cov(\hat{\beta_0}, \hat{\beta_1}) = -\sigma^2 \frac{\overline{x}}{L_{xx}}$
$\sigma^2$ 与 $\hat{\beta_0}$ 和 $\hat{\beta_1}$ 都独立，并且
$\frac{n-2}{\sigma^2} \hat{\sigma}^2 \Leftrightarrow \chi^2(n-2)$
要检验回归关系是否显著，可以利用 $t$ 分布
$\frac{\hat{\beta_1}}{\hat{\sigma}}\sqrt{\sum_{i=1}^n(x_i-\overline{x})^2} \Leftrightarrow t(n-2)$
更多的是采用
$\frac{\hat{\beta_1}}{\hat{\sigma}}L_{xx} \Leftrightarrow F(1,n-2) \Leftrightarrow \frac{(n-2)L_{xy}^2}{L_{xx}L_{yy} - L_{xy}^2}$
否定域
$\frac{(n-2)r^2}{(1-r^2)} > F_{0.05}(1,n-2)$

2、回归系数的区间估计
$\frac{\hat{\beta_1}}{\hat{\sigma}}\sqrt{\sum_{i=1}^n(x_i-\overline{x})^2} \Leftrightarrow t(n-2)$
$\hat{\beta_1} - \frac{\hat{\sigma}}{\sqrt{\sum_{i=1}^n(x_i-\overline{x})^2}}t_{\alpha/2}(n-2) —— \hat{\beta_1} + \frac{\hat{\sigma}}{\sqrt{\sum_{i=1}^n(x_i-\overline{x})^2}}t_{\alpha/2}(n-2)$

1.4 回归方程的预测与控制

1、回归方程的预测
$y_0 - y_0^* \Leftrightarrow N(0, \sigma^2[1 + \frac{1}{n} + \frac{(x_0 - \overline{x} )^2}{\sum_{i=1}^n (x_i - \overline{x})^2}])$
$\hat{\beta_0} + \hat{\beta_1 x_0 - h}——\hat{\beta_0} + \hat{\beta_1 x_0 + h}$
$t_{\alpha/2}(n-2)\hat{\sigma}\sqrt{1 + \frac{1}{n} + \frac{(x_0 - \overline{x} )^2}{\sum_{i=1}^n (x_i - \overline{x})^2}}$
2、回归方程的控制

上述方程与下两个方程同时成立：
$\le y_0^* - h \,\,\,\,\,\, y_0^* + h \le B$

3、注意

实际问题中回归模型的建立要依赖于专业知识，并且注意散点图的使用
即使回归模型通过了检验也只能认为所研究的变量是统计相关的
回归分析一般需要与相关分析结合起来
异方差性、序列相关性、多重共线性问题

三、多元回归分析

1.1 未知参数的估计

同上

1.2 回归模型的检验

$H_0: \beta_1 = \beta_2 = ... = \beta_k = 0$
$\sum_{i=1}^n(y_i - \overline{y})^2, RegSS = \sum_{i=1}^n(\hat{y_i} - \overline{y})^2,RSS = \sum_{i=1}^n(y_i - \hat{y_i})^2$
$\frac{RSS}{\sigma^2} \Leftrightarrow \chi^2(n-k-1)$
$\frac{RegSS}{\sigma^2} \Leftrightarrow \chi^2(k)$
$\frac{n-k-1}{k} \frac{RegSS}{RSS} \leftrightarrow F(k, n-k-1)$

1.3 回归因子的挑选

逐步回归的想法：
$H_{0i}： \beta_i = 0 \Leftrightarrow H_{1i}: \beta_i ≠ 0$
$t$ 检验，自由度 $n - k - 1$
$T_i = \frac{\hat{\beta_i}}{\sqrt{c_{ii}}\hat{\sigma}}$
$F$ 检验
$F_i = \frac{\hat{\beta_i}^2}{c_{ii}\hat{\sigma}^2}$