第2章多元线性模型
多元回归模型通常用来研究一个因变量依赖多个自变量的变化关系,如果二者的依赖关系可以用线性形式来刻画,则可以建立多元线性模型来进行分析.本章介绍多元线性模型的定义、参数估计与检验、变量选择、回归诊断和回归预测.
2.1 多元线性模型
2.1.1 模型定义
多元线性模型通常用来描述变量y与x之间的随机线性关系,即
(2.1)
式中,
是非随机的自变量;y是随机的因变量;
是常数项;
,
,
是回归系数;
是随机误差项.
如果对y和x进行了n次观测,得到n组观测值
,它们满足以下关系式
引入矩阵记号,记
(2.2)
则模型(2.1)可以写成如下形式
(2.3)
式中,y是n×1观测向量;X是n×(k+1)已知设计矩阵;e是n×1随机误差向量;β是(k+1)×1未知参数向量.
如果模型(2.3)满足条件:(1)E(
)=0,(2)Var(
)=
²I,(3)
互不相关,则称模型(2.3)为普通线性回归模型.
进一步,如果模型的随机误差项服从正态分布,即ε~N(0,
²I),则称模型(2.3)为普通正态线性回归模型.
【例2.1】(数据文件为eg2.1)某公司经理想研究公司员工的年薪问题,根据初步分析,他认为员工的当前年薪y(元)与员工的开始年薪
(元)、在公司的工作时间
(月)、先前的工作经验
(月)和受教育年限
(年)有关系,可能与性别
(男或女)也有关系.他随机抽样调查了36名员工,收集到如表2-1所示的数据.请将公司经理的分析用线性模型表示出来.
表2-1 抽样调查得到的36个人的数据资料
y |
T1 |
T2 |
T3 |
T4 |
T5 |
y |
T1 |
T2 |
T3 |
T4 |
T5 |
79220 |
14010 |
98 |
115 |
15 |
女 |
71120 |
11460 |
83 |
75 |
8 |
女 |
79670 |
13260 |
98 |
26 |
8 |
男 |
91520 |
22260 |
81 |
3 |
16 |
男 |
186320 |
81240 |
96 |
199 |
19 |
男 |
76220 |
12510 |
81 |
0 |
12 |
女 |
161945 |
46260 |
96 |
120 |
19 |
男 |
74420 |
12510 |
81 |
13 |
12 |
女 |
74570 |
15510 |
95 |
46 |
12 |
男 |
85220 |
17760 |
79 |
94 |
12 |
男 |
86120 |
15810 |
93 |
8 |
16 |
女 |
98570 |
22500 |
74 |
45 |
16 |
男 |
91520 |
20760 |
92 |
168 |
17 |
男 |
77420 |
12810 |
74 |
2 |
12 |
女 |
82820 |
20010 |
90 |
205 |
12 |
女 |
110720 |
35010 |
74 |
272 |
12 |
男 |
75620 |
16260 |
90 |
191 |
15 |
男 |
69020 |
11460 |
72 |
184 |
8 |
女 |
82220 |
16260 |
88 |
252 |
12 |
男 |
87920 |
19260 |
71 |
12 |
16 |
女 |
78020 |
14760 |
88 |
38 |
12 |
男 |
75770 |
13710 |
69 |
12 |
12 |
女 |
76370 |
14010 |
87 |
123 |
16 |
女 |
76520 |
20010 |
344 |
8 |
女 |
|
78020 |
14760 |
86 |
367 |
12 |
男 |
81620 |
17010 |
68 |
155 |
8 |
男 |
120570 |
43740 |
85 |
134 |
20 |
男 |
86570 |
14760 |
67 |
6 |
15 |
男 |
83270 |
16260 |
85 |
438 |
8 |
男 |
72170 |
14760 |
181 |
12 |
女 |
|
77570 |
16860 |
85 |
171 |
8 |
男 |
137570 |
46260 |
66 |
50 |
18 |
男 |
68420 |
1146 |
85 |
72 |
12 |
女 |
121320 |
23010 |
65 |
19 |
16 |
男 |
75320 |
14010 |
85 |
59 |
15 |
女 |
77570 |
17010 |
64 |
69 |
12 |
解:如果只考虑y与
,
,
和
之间的关系,则可以简单地表示为:
(2.4)
如果函数f是线性函数,即
,则模型(2.4)就是一个四元线性模型,如果模型的随机误差项服从正态分布,即
~N(0,
²I),则模型(2.4)是一个普通正态线性回归模型.
①这里对于随机误差向量方差的假定是经典假定,即Var(
)=
²I,一般的假定为Var(
)=
>0.
②如果要考虑性别
对年薪y的影响,可以将
数量化,变为虚拟变量,比如用
=0表示女性,用zs=
1表示男性.
2.1.2 模型的参数估计和检验
在正态假定下,如果X是列满秩的,则普通线性回归模型(2.3)的参数β的最小二乘估计为:
(2.5) 于是y的估计值为:
(2.6) 记残差向量为
,则随机误差方差
的最小二乘估计为:
(2.7)
得到回归模型参数的估计值后,需要对回归方程和回归系数进行显著性检验.
1. 回归方程的显著性检验
原假设
备择假设
不全为0,当原假设成立时,检验统计量
(2.8)
式中,
是四归平方和:
是残差平方和.对于给定的显著性水平a,检验的拒绝域为
.
2. 回归系数的显著性检验
原假设
,备择假设
,当原假设成立时,检验统计量
(2.9)
式中,
是去掉
后的残差平方和.对于给定的显著性水平
,检验的拒绝域为
也可以采用以下检验统计量
(2.10)
式中,
是
对角线上的第
个元素.对于给定的显著性水平