EverydayOneCat
⛽️!!
知识点
1.笔记
2.用岭回归选择变量
岭回归选择变量的原则:
(1)可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。
(2)随着k的增加,回归系数不稳定,震动趋于零的自变量也可以剔除。
(3)有若干个回归系数不稳定,去掉几个,去掉哪几个,需根据去掉某个变量后重新进行岭回归分析的效果来确定。
例:空气污染问题。Mcdonald 和Schwing 曾研究死亡率与空气污染、气候以及社会经济状况等因素的关系。考虑了15个解释变量,收集了60组样本数据。
把15个回归系数的岭迹画到图中,我们可看到,当k=0.20时岭迹大体上达到稳定。按照岭迹法,应取k=0.2。
若用方差扩大因子法,因k=0.18时,方差扩大因子接近于1,当k在0.02~0.08时,方差扩大因子小于10,故应建议在此范围选取k。
从岭迹看到自变量x4,x7,x10,x11和x15有较稳定且绝对值比较小的岭回归系数,根据变量选择的第一条原则,这些可以去掉。
又因为自变量x12和x13的岭回归系数很不稳定,且随着k的增加很快趋于零,根据上面的第二条原则,也应该去掉。
再根据第三条原则去掉变量x3和x5。
这个问题最后剩的变量是x1,x2,x6,x8,x9,x14。
3.岭回归的应用
以民航客运量模型为例
3.1多元线性回归模型的建立
第一步,提出因变量与自变量,收集数据
SAS程序如下:
data sj;
input time y x1-x5@@; /*@@:指针控制符,读取下面数据时自动换行*/
card;
… 省略号部分录入数据
;
run;
第二步,Pearson相关系数检验
proc corr data=sj; /*proc: 过程步的开始,表示调用;corr: 相关系数矩阵*/
var y;
with x1 x2 x3 x4 x5; /*with 表示y和这些,不加的话就是两两相比较*/
run;
说明x3和y没有信息传递。
第三步,做回归分析,输出结果
proc reg data=sj;
model y=x1 x2 x3 x4 x5; /*reg: 线性回归*/
run;
由此写出回归方程:
第四步,回归诊断
(1) 拟合优度检验
(2) F检验
第五步,DW检验,检验随机项的一阶自相关性
proc reg data=sj;
model y=x1 x2 x3 x4 x5/dw; /*dw: DW检验*/
run;
3.2岭回归模型的建立
x2的回归系数-0.5614 是负的, x2是消费额,负的回归系数显然是不合理的,其原因可能是