【风控模型方法论】利用系数符号、VIF和IV快速挑选模型变量

风控模型进入到最后一步构建模型的过程,往往只剩下100个筛选后的变量。此时用逻辑回归的Stepwise筛选模型结果,往往会得到系数正负不一致的变量入模,且还有VIF>10的变量会入模。

我们知道这两种情形的变量都不该入模,但为什么逻辑回归没有剔除这两类变量?这两类变量如果入模会产生什么风险?如果我们开发一套自动化迭代的代码,应该遵循怎样的变量挑选程序?

这篇文章收集了不少资料,同时结合了自己的思考来尝试解答这些问题。

(由于这篇文章成文到发表有一定时间间隔,无法溯源每张插图的出处,如果恰好你知道出处或者是图的原作者,告知后我会及时标注出处或者寻找其他示例代替。)

1.逐步回归为什么会得到负系数的变量?

一个已经引入的变量因为原先引入的变量变得不再显著时候就剔除掉。而显著性的方式是用Wald检验,判断每个系数的准确性。

逐步回归并不能排除变量共线性。如果变量之间存在相关性,逐步回归最终筛选的变量系数存在偏差。

2.为什么最终变量存在正负符号不一致的状况?

模型存在正负符号不一致的情况,提示变量之间存在存在线性相关。

关于线性相关的举例:

假设原始的线性回归公式为: y=w1x1+w2x2+w3x3

训练完毕的线性回归公式为: y=5x1+7x2+10x3 ①

此时加入一个新特征 x4 ,假设 x4 和 x3 高度相关, x4=2x3 。

则: y=w1x1+w2x2+w3x3+w4x4=w1

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值