应用回归分析(3)：多元线性回归

Oasis of the World

已于 2023-12-20 14:01:41 修改

阅读量3.7k

点赞数 13

分类专栏：应用回归分析及spss部分使用文章标签：回归

于 2023-10-31 21:19:58 首次发布

本文链接：https://blog.csdn.net/qq_64279967/article/details/133762142

版权

应用回归分析及spss部分使用专栏收录该内容

6 篇文章 1 订阅

订阅专栏

3.1 多元线性回归

3.1.1 一般形式

$y = \beta_0 +\beta_1x_1 +\beta_2x_2+....+\beta_nx_n+\varepsilon$

对于随机误差假定： $E(\varepsilon _i) = 0;var(\varepsilon _i)=\delta ^2;$

称： $E(y|x)=E(y)= \beta_0 +\beta_1x_1 +\beta_2x_2+....+\beta_nx_n$ 为理论回归方程

对于实际问题：

可以写作矩阵的形式：

3.1.2 基本假设

（1）解释变量 x_1,x_2,x_3...x_n 是确定性变量，不是随机变量，且要求 $rank(X) = p+1<n$ ,表示矩阵的自变量列之间不相关，样本量的个数大于解释变量的个数

（2）假设 $E(\varepsilon _i) = 0;var(\varepsilon _i)=\delta ^2;cov(\varepsilon_i, \varepsilon _j) = 0$

（3）正态分布的假定条件： $\varepsilon _i \sim N(0,\delta ^2)$ ，且 $\varepsilon _i$ 相互独立，在矩阵的背景条件下可以写作： $\varepsilon \sim N(\mathbf{0},\delta ^2I_n)$

3.1.3 结论

（1）在（3）的假设下：

3.1.4 对系数含义的解释

3.2 回归参数的估计

3.2.1 最小二乘法估计

（1）前提

X^TX 的逆存在！

$n>p+1$ ！

关于残差的正态性假设！

（2）推导过程：

参见：计量经济学：多元线性回归的最小二乘估计 - 知乎 (zhihu.com)

（3）结论：！！

一、记住： $\widehat{\mathbf{\beta }} = (X^TX)^{-1}X^Ty$ !!!一定要背过！

称： $\widehat{y}= \widehat{\beta_0}+\widehat{\beta_1}x_1+\widehat{\beta_2}x_2+\widehat{\beta_3}x_3+...+\widehat{\beta_p}x_p$ 为经验回归方程

二、根据一可以可出：

（4）回归值、帽子矩阵

$\widehat{y} = X(X^TX)^{-1}X^Ty$ ,把通过乘上一个向量变成戴上帽子的 $\widehat{y}$ ,因此称 $H= X(X^TX)^{-1}X$ , 可以得到是n阶对称矩阵和幂等矩阵 H^2 =H

（5）残差值

一、残差的方差

二、残差的其他性质

$\sum _{i=1}^{n} e_i = 0, \sum _{i=1}^{n}x_i e_i = 0$

三、残差方差的无偏估计

3.2.2 最大似然估计

和一元类似

3.3 参数估计量的性质

（1）线性变换

性质1： $\widehat{\beta }$ 是随机变量的一个线性变换

（2）无偏估计

（3）方差（记清楚咯！！！）

通过一元回归进行验证：

进一步证明出：

这个性质可以得到的结论：

（4）相关系数阵

（4）G-M定理（高斯-马尔可夫定理）

（5）回归系数和误差项不相关

即 $cov(\widehat{\beta },e) = 0$

（6）重要的分布

3.4 显著性检验

（1）F检验

目的：自变量从整体上对随机变量y是否有明显影响

检验过程：

（2）T检验

目的：检验某个自变量对y是否有显著影响

这时会发现不显著的变量，但不可以一次全部剔除，要一个一个剔除（后退法）

注意：尽管回归方程高度显著，但也会出现某些自变量（甚至是每一个自变量对y没有显著影响！）

（3）T检验和F检验的关系

T检验和F检验再多元回归分析中并不等价！

F显著，不代表每个自变量都显著；反之，某几个自变量的系数不显著，F检验依旧可能显著

但是偏F检验统计量和T检验等价:

偏F统计量是对应t统计量的平方 - 知乎 (zhihu.com)

（4）拟合优度

1、样本决定系数

R^2 越接近1，说明拟合效果越好。与F检验相比，可以更直观的反应回归效果，但是并不能作为严格作为严格的显著性检验.。

解释：

当n较大时，即使 R^2 在0.7左右我们也肯定模型

注意当样本量和自变量个数接近时， R^2 易接近于1，其中含着一些虚假成分。因此用 R^2 决定模型好坏需要谨慎

2、样本复相关系数（全相关系数）

在两个变量的简单相关系数中由正负之分，但是复相关系数表示的是因变量和所有自变量之间的关系，没有正负之分！

3.5 回归系数的置信区间

仿照一元线性回归的推导过程：

可以得到：

3.6 中心化和标准化

（1）中心化

（2）标准化

3.7 相关阵与偏相关系数

（1）样本相关阵

负相关系数反应了y与一组自变量的相关性，是整体和共性的指标；简单相关系数反应两个变量间的相关性，是局部与共性的指标

（2）偏决定系数

在多元线性回归分析中，当其他变量固定后，给定任两个变量的相关系数叫做偏相关系数。先引出偏决定系数的定义：

（3）偏相关系数

是偏决定系数平方根得到的

前提：逆存在n大于p+1

背过

最大似然估计：假设正态分布

age: $\beta _1$ Price: $\beta _2$ Female: $\beta _3$ HS: $\beta _4$ Black: $\beta _5$ Income: $\beta _6$

假设： $H_0 : \beta _0+\beta_1x_1+\beta_2x_2+\beta_5x_5+\beta_6x_6\\ H_1 : \beta _0+\beta_1x_1+\beta_2x_2+\beta_3x_3+\beta_5x_5+\beta_6x_6$

Oasis of the World

关注

13
点赞
踩
57

收藏

觉得还不错? 一键收藏
2
评论
应用回归分析(3)：多元线性回归

对于随机误差假定：称：为理论回归方程对于实际问题：可以写作矩阵的形式：（1）解释变量是确定性变量，不是随机变量，且要求,表示矩阵的自变量列之间不相关，样本量的个数大于解释变量的个数（2）假设（3）正态分布的假定条件：，且相互独立，在矩阵的背景条件下可以写作：（1）在（3）的假设下：3.1.4 对系数含义的解释的逆存在！！关于残差的正态性假设！参见：计量经济学：多元线性回归的最小二乘估计 - 知乎 (zhihu.com)一、记住： !!!一定要背过！称：为经验回归方程二、根据一可以可出：,把通过乘上一个向量
复制链接

扫一扫