ibm spss statistics授权代码_如何用SPSS岭回归解决共线性问题?

27c1f03d80da6fac6dbfd38f984913ee.png我们在线性回归中,难免会遇到数据存在共线性问题,所谓共线性,是指两个或多个自变量之间存在明显的相关关系,在线性拟合的过程中,导致回归方程出现拟合效果差、回归系数难以解释等问题。
举例:某自变量X1与Y为正相关关系,但是线性回归显示X1的回归系数为负数,和实际情况相反,这不符合现实情况,属于比较典型的共线性问题。 4559892a21624aade70010d5c7ae6ce4.png一起来看今天的实例:某医师希望通过B超下胎儿的身长、头围、体重来预测胎儿周龄,这些观测值均是连续性数值变量,所以很容易想到建立一个多重线性回归方程来解决问题。 d1877658f44ca14d9d914a17efc9fe24.png周龄为因变量,体重、身长、头围为自变量的回归方程,调整后R方=0.971,模型可以解释掉因变量97.1%的变异,说明模型拟合的不错。 6796fb2782b4e73208ebee3feefd2520.png再一细看。自变量头围的回归系数=-2.159,头围和胎儿周龄负相关?随着胎儿的头围增长,胎儿的周龄变小?很显然这是不符合生活逻辑的。 此时,不管前面调整R方有多么能说明问题,这个模型也是不能用的! 错误的!
然后我们发现自变量身长、自变量头围的VIF值均大于200,VIF指标是非常不错的共线性的指针,一般上,当VIF>10,即可怀疑存在共线性问题了。
也就是说,身长和头围这两个存在较为严重的共线性问题。如果强行拟合线性回归的话,模型不可用。但是医师就是要研究身长、头围、体重和周龄的关系,我们还不能直接剔除。
回归还得继续,但显然普通线性回归已经不合适了。 怎么办呢? 岭回归是一个可选的解决方案。
SPSS也是可以执行岭回归的,不过不是常见的菜单对话框模块来执行,而是需要编写一段语法。不要担心,这段语法比较简单,是比较容易理解和掌握的。
菜单:【文件】→【新建】→【语法】,打开语法窗口,输入如下代码: INCLUDE'C:\Program Files\IBM\SPSS\Statistics\24\Samples\Simplified Chinese\Ridge regression.sps'. ridgereg enter=long touwei weight /dep=y /start=0 /stop=1 /inc=0.05 /k=999. EXECUTE
如下图所示: 91cc08e5d2d2cf234274a1866130d651.png全选语法代码,菜单:【运行】→【全部】,得到如下可视化结果(修饰后): 8c81d2ba6f86221a53c7e3c2f4863f95.png上图名为 岭迹图 ,每个自变量X会在岭迹图上生成一条曲线,特点是随着参数K的增大,各条曲线逐渐重合重叠。每条曲线有一个拐点,拐点左侧的特点是快速下滑,拐点右侧的特点是趋于平稳并与其他曲线重合。
观察岭迹图后,我们需要确定一个拐点,在这个拐点处,能使各条曲线同步趋于平稳和重合。拐点的确定,是比较主观的,不同的人可能会有不同的看法,总的原则是,所选拐点,也就是参考K,它对应的调整R方尽可能大一些。 e453c34d66f897a18c28f309c779fe2a.png此时,要结合上图。
我们可以看到,参数K(拐点的位置)越大,纵轴回归拟合决定系数R方就越小。所以K不能选的过大,否则回归方程决定系数就会大幅降低,回归方程质量就会下降。
我们要在尽可能少的损失下,确定合适的参数K 。
本例,当K=0.05时,三条曲线,尤其是long和touwei两个变量趋于平稳,此时对应的R方约为0.95,模型拟合质量还是蛮高的。
因此,本例K=0.05。
确定了参数K的取值,接下来正式的开始用岭回归的方法拟合出回归方程。这一步仍然需要编写一段语法代码。
打开你电脑安装SPSS的工作路径,找到“Ridge regression.sps”,这个文件就是SPSS提供的能实现岭回归的语法代码宏文件,每个人的电脑只要安装了SPSS,就会在软件的安装路径下自动有这个文件。
现在打开这个文件,找到【out similar to REGRESSION output.】这一段语法,在下方合适的位置,插入一句语法代码: .computeppp=2*(1-tcdf(abs(ratio),n-nv-1)).具体如下: a76e6f8849a2c5165daca6433e62497b.png然后,我们重新调用这个宏文件: INCLUDE'C:\Program Files\IBM\SPSS\Statistics\24\Samples\Simplified Chinese\Ridge regression.sps'. ridgereg enter=long touwei weight /dep=y /start=0 /stop=1 /inc=0.05 /k=0.05. EXECUTE
将参数k有默认的999,修改为0.05(前面岭迹图确定的拐点位置)。然后执行代码。得到岭回归结果。 47ec5afb4ad4b1f4b3ae4a17a316b6a0.png回归方程表达式: y=8.7+0.225*long+0.111*touwei+0.005*weight
该回归方程的方差分析显示,p<0.05,说明模型有统计学意义,该方程的调整R方=0.94,模型能解释因变量94%的变化,拟合效果可以接受。
回归方程中,三个自变量long、touwei、weight的偏回归系数均为正数,说明三个自变量与胎儿周龄均为正相关关系,影响的程度具体看系数的绝对值。符合现实情况。 岭回归视频演示近期更新发布至《SPSS从入门到实践提高》课程 参考资料:嗵嗵e研-岭回归分析及其SPSS实现方法
任何人经过一段时间的刻意学习和训练之后,都能使用SPSS完成统计分析任务和基本的数据分析工作,SPSS是最容易入门并熟练掌握的统计分析软件工具,本号推出的SPSS在线视频教程《SPSS从入门到实践提高》长期维护更新,想学习SPSS的读者欢迎加入。 51cfa6bfe2da7776d7f02409f0f090e1.png ae5c8610029fa07455707a0538ba85c4.png
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值