SAS回归分析——(复习5)

**相关分析(描述统计部分)
绘制散点图 gplot过程 plot ab
*****一元线性回归分析
多元线性回归分析

reg过程 model y=a b c /(拟合诊断输出更多)
glm过程 model y=a b c/ (残差检验更多,可以直接在model中变量相乘除)无r plot selection vif collin
*** 统计量输出p(预测值) r(残差) clm(均值置信区间) cli(预测值置信区间)alpha(规定预测区间)influence(强影响点)partial(偏回归图)
*** 变量选择逐步回归 selection=backward |forward| stepwise| rsquare | adjrsq |cp
变量选择参数设定 sle=0.05 sls=0.10 best=个数 aic sbc rmse include=n ;(只有reg过程有)
*** 绘制拟合图
gplot过程 plot a * b; symbol i=rlclm rlcli
reg过程 plot a * b/aic cp mse sse overlay rlclm rlcli(拟合图中区间大小由model中决定) (一元回归reg自带拟合图)(多元回归reg无法做拟合图)
symboln cv= ci= co= line= font=
残差与预测值诊断图(plot r. * p.)
***多重共线性
reg过程 model / vif collin (只有reg过程有)

***异方差
***变量选择
reg过程

***非线性回归(可化为线性)
***回归诊断

残差分析–残差
识别异常观测值
残差的正态性检验
识别强影响点
共线性诊断
误差项的独立性

案例分析

reg model /r p clm cli alpha influence partial vif collin selection=stepwise sls= sle= best= aic sbc rmse include=
plot /overlay

概念
变量间的关系有两种类型:确定性的函数关系和相关关系.
回归分析方法是处理变量间相关关系的统计分析工具.

 回归分析用于确定一个变量(因变量)与另一些变量(自变量)间的相互依赖关系。回归分析是研究一个(或几个)因变量Y与另一些变量的相互依赖关系.具体地说,研究问题如下:
 ① 建立因变量Y与x1,x2,…,xm的经验公式(回归方程)
 ② 对经验公式的可信度进行检验;
 ③ 判断每个自变量xi(i=1,…,m)对Y的影响是否显著?
 ④ 利用经验公式进行预报和控制,指导生产;   
 ⑤ 诊断经验公式是否适合这组数据.

在这里插入图片描述
利用proc reg 中的plot语句可以绘制与拟合数据有关的散点图、回归直线和置信曲线、预测区间曲线.cv-点的颜色;ci-连线颜色;co-对应置信带的颜色。
如 回归中的点是红色,拟合线为蓝色,对应的置信带为绿色的sas代码:symbol cv=red ci=blue co=green;
model选项
p.(predicted) 预测值
r. (residual) 残差
U95., L95. 预测值置信限U95M.,L95M. 预测均值置信限
plot
选项:
conf 95—预测均值的置信曲线
pred95—作预测值的置信曲线
overlay—多图叠加在一幅图上
AIC CP MSE SSE–在图形左边显示相应的统计量
在这里插入图片描述
symbol1 value=star ci=blue cv=red
i=rlclm95 width=2;
proc gplot data=dreg21;
plot y*x;
title2 ‘Y对x的回归线及均值的95%置信限’;
run;
(i=rlclm95 表示绘制线性回归预测均值的95%置信限)

在多元线性回归分析中输出回归系数的?检验里,都是假定其它自变量进入回归的前提下检验该变量进入的显著性.即构造t 统计量的平方和为偏回归平方和, 称为II型平方和(SS2)。
若模型中有两个变量相关性强,在这一检验中两者的显著性都有可能被隐蔽起来.所以,这一检验结果必须小心分析。
删除变量时,必须逐个删除.并在删除每个变量后,注意观测其它变量的?值的变化.

变量选择准则
(1) 均方误差s2最小
选择子集A={xi1 ,xi2 ,…,xil},使均方误差:
s2(A)=ESS (A)/(n-l-1) 达最小。
其中ESS (A)是Y与子集A回归模型的误差平方和,?是子集A中自变量的个数。
(2) 预测均方误差最小
选择子集A, 使得J(A)=(?+?+?)/(?−?−?)ESS(A)达最小。
(3) ?_?统计量最小准则
选择子集A,使得?_? (?)= ???(?)/(???/(?−?−?))+2l-n 达最小,其中ESS是包含所有?个自变量的全模型的误差平方和.
(4) AIC或BIC准则
选择子集A,使得
???(?)=ln⁡(???(?))+2?/?或???(?)=ln⁡(???(?))+(? ???)/?达最小。
(5) 修正?^2准则
选择子集A,使得修正R2=1- (?−?)/(?−(?+?)) (1-R2)
(当模型含截距项时i=1,否则i=0)达最大。
(6) SBC准则
Schwarz’s Bayesian Criterion =???(???(?)/?)+???(?)

变量选择
在回归方程中,若遗漏了应加入的变量,将使所有的回归系数估计量产生偏差;若加入了不该加入的变量,将加大所有的回归系数估计量的方差。
回归分析中变量的选择是在自变量(独立变量)集中找出合适的子集,用以描述模型和进行预报。常用的有:所有可能回归法(更多的侯选模型)和逐步筛选回归法(节省计算机资源)。REG过程逐步筛选变量方法选项如下:
NONE: 全部进入,不筛选变量;
FORWARD: 向前加入法,即逐个加入变量;
BACKWARD: 向后删除法,全部加入后逐个剔除;
STEPWISE: 逐步筛选法,边进边出;
MAXR: 逐个加入和对换,使R2增加最大;
MINR: 逐个加入和对换,使R2增加最小.
MAXR:开始加入使R2增加最大的变量以后每一步选择模型内外变量进行对换—1.选择使R2增加最大的对换;2.选择加入一个使R2增加最大的新变量.
MINR:开始加入使R2增加最小的变量以后每一步选择模型内外变量进行对换—1.选择R2增加最小的对换;2.选择加入一个使R2增加最小的新变量.
RSQRARE:对不同个数自变量分别选择RSQ最大的模型
ADJRSQ: 选Adj-RSQ最大的模型
?_?:选最先满足?_?≤?的模型,其中?为进入回归的变量数
Hocking建议: ?_?≤? (预测)和?_?≤2?−?+1(估计), (?为全模型的变量个数)

PROC REG DATA=数据集名; MODEL 因变量=自变量名列/p cli clm r noprint
selection= backward |forward| stepwise
rsquare |adjrsq|cp
slentry=0.05 slstay=0.10
best=个数 aic sbc rmse include=n ;
ID 变量名;
OUTPUT out=数据集名 关键统计量名=输出名. . .;RUN;

GLM过程用最小二乘法拟合一般的线性模型,包括回归分析、方差分析、协方差分析等. 它与REG过程一样提供方差分析表,参数估计,回归系数的检验和两类平方和;
GLM可提供关于两类平方和的检验;用GLM过程拟合多项式回归时不必预先生成变量的高次项;但GLM过程不能提供回归诊断的信息.

Anscombe例子告诉我们,回归分析中讨论的估计和检验问题并不能用于验证回归模型的各项假定.另数据中的异常点可能使回归结果不稳定或不适用.这些任务需要在回归后进行回归诊断.具体说有以下几方面:
1.异常值(outliers)或强影响点的检查;
2.从已拟合回归的数据中分析线性模型的假定是否被破坏:因变量的均值是否是自变量的线性函数,是否需要对变量进行变换或拟合曲线回归;
误差项是否同方差,不相关,正态分布;
3.自变量间是否存在线性关系(仅多元有)—共线性诊断; 考察残差散点图是进行回归诊断的必要步骤.

利用残差可以考察残差和预测值或自变量的散点图,也可以检验残差分布的正态性.
利用plot语句plot r.*p. ; 可得残差-预测散点图。

在PROC REG的model语句加上选项 r, 就会输出与预测值和残差有关的一些统计量.他们可用于识别异常数据(outlier)及其强影响点.
Predict Value 预测值
Std Err Predict 预测值标准差
Residual 残差
Std Err Residual 残差标准差
Student Residual student化的残差
-2 -1 0 1 2 残差显著性图
Cook’s D Cook’s D统计量
***若|标准化残差或“学生化”残差|>3,则观测点为异常点;
若|标准化残差或“学生化”残差|>2,则观测点为可疑点。
***Cook D统计量度量一个观测从分析中剔除时参数估计值的变化对一个观测值其 Cook D 统计量的值超过 4/n 时(n为样本容量),这个观测存在反常效应(经验结论).

PROC REG DATA=数据集名 ;MODEL 应变量=自变量;
PLOT nqq.*student. (nqq.*r.);RUN;

残差分析
proc reg data=uscrime;
model R= Age–Ed Ex1–X / selection=stepwise sle=.05 sls=.05;
plot student.*(ex1 x ed age u2);
plot student.*predicted. cookd.*obs.;
plot npp.*residual.;
run;

(1)线性性诊断
以残差为纵坐标,以每个变量为横坐标绘制散点图。
如果自变量与残差的散点图呈现出一种曲线关系,则需要对相应的自变量进行高阶次的拟合。
分析: 从图1中可见,随着Ex1的变大,残差的波动范围有增大的趋势。因此,在模型中增加的Ex1二次项可能拟合效果会更好。其他变量的残差图没有显示此种迹象。
(2) 方差齐性诊断
以残差为纵坐标,以变量的预测值为横坐标绘制散点图
(3) 强影响点的诊断
以Cook距离为纵坐标,以观测值序号为横坐标,作
散点图。
图7:Cook距离图图中显示出有一些点有较大的Cook距离,但它们的值都没
有超过1。***通常,超过1时,认为存在强影响点。
(4)正态性诊断----残差的正态概率图:
分析:从图中可以看出,散点基本呈直线分布,所以可以认为残差基本服从正态分布。

在这里插入图片描述

PROC REG 的 Model语句加选项r 可获得 Cook D 统计量
PROC REG 的 Model语句加选项influence可获得 Dffits 等反映观测点影响的统计量.
回归诊断——识别强影响点
偏杠杆图是使有影响观测可视化的方法.
偏杠杆图是两个回归的残差的散点图.
例如对变量 xr 的偏杠杆图:纵轴是Y关于除xr以外所有x的回归的残差,横轴是xr关于所有x的回归的残差.
***有影响观测通常分离与其它数据点或在某一轴上有极端数值.
偏杠杆图还可识别要加入哪些变量的高次项.

如何处理有影响的观测:
1.复验数据,确认并无数据输入错误发生;
2.若数据是有效的,模型可能不合适。拟合此数据可能需要使用高阶模型,也可能数据是反常的;
3.一般不剔除数据,某些有影响的观测提供重要的信息。若要剔除数据,应给出必要的描述和说明。

回归诊断——共线性(collinearity, multicollinearity)诊断
自变量间存在线性关系.
1.自变量之间的线性关系会隐蔽变量的显著性;
2.也会增加参数估计的方差;
3.产生不稳定的模型.
只有拟合多元回归才会发生这一问题.
共线性的诊断可使用方差膨胀因子、条件指数和方差比例.

条件指数(condition index)和方差比例(variance
proportion)联合使用可确认存在线性关系的变量组.
***条件指数(hi=(lmax/li)1/2)
在10-30间为弱相关;
在30-100间为中度相关;
大于100表明有强相关.
大的条件指数伴随方差比例>0.5 即可确认有共线性
的自变量子集.

*** 一般认为VIF>10时,模型中存在严重共线性。
在图中可以得到:
VIFEx0 =94.63>10;
VIFEx1 =98.63>10;
其余变量的VIF均小于10,
所以,简单的去除Ex0.

回归诊断-误差项的独立性
在这里插入图片描述

  • 7
    点赞
  • 64
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值