目录
3.1 多元线性回归
3.1.1 一般形式
对于随机误差假定:
称:为理论回归方程
对于实际问题:
可以写作矩阵的形式:
3.1.2 基本假设
(1)解释变量是确定性变量,不是随机变量,且要求
,表示矩阵
的自变量列之间不相关,样本量的个数大于解释变量的个数
(2)假设
(3)正态分布的假定条件:,且
相互独立,在矩阵的背景条件下可以写作:
3.1.3 结论
(1)在(3)的假设下:
3.1.4 对系数含义的解释
3.2 回归参数的估计
3.2.1 最小二乘法估计
(1)前提
的逆存在!
!
关于残差的正态性假设!
(2)推导过程:
参见:计量经济学:多元线性回归的最小二乘估计 - 知乎 (zhihu.com)
(3)结论:!!
一、记住: !!!一定要背过!
称:为经验回归方程
二、根据一可以可出:
(4)回归值、帽子矩阵
,把
通过乘上一个向量变成戴上帽子的
,因此称
, 可以得到
是n阶对称矩阵和幂等矩阵
(5)残差值
一、残差的方差
二、残差的其他性质
三、残差方差的 无偏估计
3.2.2 最大似然估计
和一元类似
3.3 参数估计量的性质
(1)线性变换
性质1:是随机变量
的一个线性变换
(2)无偏估计
(3)方差(记清楚咯!!!)
通过一元回归进行验证:
进一步证明出:
这个性质可以得到的结论:
(4)相关系数阵
(4)G-M定理(高斯-马尔可夫定理)
(5)回归系数和误差项不相关
即
(6)重要的分布
3.4 显著性检验
(1)F检验
目的:自变量从整体上对随机变量y是否有明显影响
检验过程:
(2)T检验
目的:检验某个自变量对y是否有显著影响
这时会发现不显著的变量,但不可以一次全部剔除,要一个一个剔除(后退法)
注意:尽管回归方程高度显著,但也会出现某些自变量 (甚至是每一个自变量对y没有显著影响!)
(3)T检验和F检验的关系
T检验和F检验再多元回归分析中并不等价!
F显著,不代表每个自变量都显著;反之,某几个自变量的系数不显著,F检验依旧可能显著
但是偏F检验统计量和T检验等价:
偏F统计量是对应t统计量的平方 - 知乎 (zhihu.com)
(4)拟合优度
1、样本决定系数
越接近1,说明拟合效果越好。与F检验相比,可以更直观的反应回归效果,但是并不能作为严格作为严格的显著性检验.。
解释:
当n较大时,即使在0.7左右我们也肯定模型
注意当样本量和自变量个数接近时,易接近于1,其中含着一些虚假成分。因此用
决定模型好坏需要谨慎
2、样本复相关系数(全相关系数)
在两个变量的简单相关系数中由正负之分,但是复相关系数表示的是因变量和所有自变量之间的关系,没有正负之分!
3.5 回归系数的置信区间
仿照一元线性回归的推导过程:
可以得到:
3.6 中心化和标准化
(1)中心化
(2)标准化
3.7 相关阵与偏相关系数
(1)样本相关阵
负相关系数反应了y与一组自变量的相关性,是整体和共性的指标;简单相关系数反应两个变量间的相关性,是局部与共性的指标
(2)偏决定系数
在多元线性回归分析中,当其他变量固定后,给定任两个变量的相关系数叫做偏相关系数。先引出偏决定系数的定义:
(3)偏相关系数
是偏决定系数平方根得到的
前提:逆存在n大于p+1
背过
最大似然估计:假设正态分布
age: Price:
Female:
HS:
Black:
Income:
假设: