应用回归分析(3):多元线性回归

目录

3.1 多元线性回归

3.1.1 一般形式

3.1.2 基本假设

3.1.3 结论

3.2 回归参数的估计

3.2.1 最小二乘法估计

(1)前提

(2)推导过程:

(3)结论:!!

(4)回归值、帽子矩阵

 (5)残差值

一、残差的方差

二、残差的其他性质

三、残差方差的 无偏估计

3.2.2 最大似然估计

3.3 参数估计量的性质

(1)线性变换

(2)无偏估计

(3)方差(记清楚咯!!!)

(4)相关系数阵

(4)G-M定理(高斯-马尔可夫定理)

(5)回归系数和误差项不相关

(6)重要的分布

3.4 显著性检验

(1)F检验

(2)T检验

(3)T检验和F检验的关系

(4)拟合优度

1、样本决定系数

2、样本复相关系数(全相关系数)

3.5 回归系数的置信区间

3.6 中心化和标准化

(1)中心化

(2)标准化

 ​编辑

3.7 相关阵与偏相关系数

(1)样本相关阵

(2)偏决定系数

(3)偏相关系数


3.1 多元线性回归

3.1.1 一般形式

y = \beta_0 +\beta_1x_1 +\beta_2x_2+....+\beta_nx_n+\varepsilon

对于随机误差假定:E(\varepsilon _i) = 0;var(\varepsilon _i)=\delta ^2;

称:E(y|x)=E(y)= \beta_0 +\beta_1x_1 +\beta_2x_2+....+\beta_nx_n为理论回归方程

对于实际问题:

可以写作矩阵的形式:

3.1.2 基本假设

(1)解释变量x_1,x_2,x_3...x_n是确定性变量,不是随机变量,且要求rank(X) = p+1<n,表示矩阵X的自变量列之间不相关,样本量的个数大于解释变量的个数

(2)假设E(\varepsilon _i) = 0;var(\varepsilon _i)=\delta ^2;cov(\varepsilon_i, \varepsilon _j) = 0

(3)正态分布的假定条件:\varepsilon _i \sim N(0,\delta ^2),且\varepsilon _i相互独立,在矩阵的背景条件下可以写作:\varepsilon \sim N(\mathbf{0},\delta ^2I_n)

3.1.3 结论

(1)在(3)的假设下:

3.1.4 对系数含义的解释

3.2 回归参数的估计

3.2.1 最小二乘法估计

(1)前提

X^TX的逆存在!

n>p+1

关于残差的正态性假设!

(2)推导过程:

参见:计量经济学:多元线性回归的最小二乘估计 - 知乎 (zhihu.com)

(3)结论:!!

一、记住:\widehat{\mathbf{\beta }} = (X^TX)^{-1}X^Ty  !!!一定要背过!

称:\widehat{y}= \widehat{\beta_0}+\widehat{\beta_1}x_1+\widehat{\beta_2}x_2+\widehat{\beta_3}x_3+...+\widehat{\beta_p}x_p为经验回归方程

二、根据一可以可出:

(4)回归值、帽子矩阵

\widehat{y} = X(X^TX)^{-1}X^Ty,把y通过乘上一个向量变成戴上帽子的\widehat{y},因此称H= X(X^TX)^{-1}X,        可以得到H是n阶对称矩阵和幂等矩阵H^2 =H

 (5)残差值

一、残差的方差

二、残差的其他性质

\sum _{i=1}^{n} e_i = 0, \sum _{i=1}^{n}x_i e_i = 0

三、残差方差的 无偏估计

3.2.2 最大似然估计

和一元类似

3.3 参数估计量的性质

(1)线性变换

性质1:\widehat{\beta }是随机变量y的一个线性变换

(2)无偏估计

(3)方差(记清楚咯!!!)

通过一元回归进行验证:

 

进一步证明出:

这个性质可以得到的结论:

(4)相关系数阵

 

(4)G-M定理(高斯-马尔可夫定理)

(5)回归系数和误差项不相关

cov(\widehat{\beta },e) = 0

(6)重要的分布

3.4 显著性检验

(1)F检验

目的:自变量从整体上对随机变量y是否有明显影响

检验过程:

(2)T检验

目的:检验某个自变量对y是否有显著影响

这时会发现不显著的变量,但不可以一次全部剔除,要一个一个剔除(后退法)

注意:尽管回归方程高度显著,但也会出现某些自变量 (甚至是每一个自变量对y没有显著影响!)

(3)T检验和F检验的关系

T检验和F检验再多元回归分析中并不等价!

F显著,不代表每个自变量都显著;反之,某几个自变量的系数不显著,F检验依旧可能显著

但是偏F检验统计量和T检验等价:

偏F统计量是对应t统计量的平方 - 知乎 (zhihu.com)

(4)拟合优度

1、样本决定系数

R^2越接近1,说明拟合效果越好。与F检验相比,可以更直观的反应回归效果,但是并不能作为严格作为严格的显著性检验.。

解释:

当n较大时,即使R^2在0.7左右我们也肯定模型

注意当样本量和自变量个数接近时,R^2易接近于1,其中含着一些虚假成分。因此用R^2决定模型好坏需要谨慎

2、样本复相关系数(全相关系数)

在两个变量的简单相关系数中由正负之分,但是复相关系数表示的是因变量和所有自变量之间的关系,没有正负之分!

3.5 回归系数的置信区间

仿照一元线性回归的推导过程:

可以得到:

3.6 中心化和标准化

(1)中心化

(2)标准化

 

3.7 相关阵与偏相关系数

(1)样本相关阵

负相关系数反应了y与一组自变量的相关性,是整体和共性的指标;简单相关系数反应两个变量间的相关性,是局部与共性的指标

(2)偏决定系数

在多元线性回归分析中,当其他变量固定后,给定任两个变量的相关系数叫做偏相关系数。先引出偏决定系数的定义:

(3)偏相关系数

是偏决定系数平方根得到的

前提:逆存在n大于p+1

背过

最大似然估计:假设正态分布

age:\beta _1 Price:\beta _2 Female:\beta _3 HS:\beta _4 Black:\beta _5 Income:\beta _6

假设:H_0 : \beta _0+\beta_1x_1+\beta_2x_2+\beta_5x_5+\beta_6x_6\\ H_1 : \beta _0+\beta_1x_1+\beta_2x_2+\beta_3x_3+\beta_5x_5+\beta_6x_6

  • 13
    点赞
  • 57
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值