风控模型进入到最后一步构建模型的过程,往往只剩下100个筛选后的变量。此时用逻辑回归的Stepwise筛选模型结果,往往会得到系数正负不一致的变量入模,且还有VIF>10的变量会入模。
我们知道这两种情形的变量都不该入模,但为什么逻辑回归没有剔除这两类变量?这两类变量如果入模会产生什么风险?如果我们开发一套自动化迭代的代码,应该遵循怎样的变量挑选程序?
这篇文章收集了不少资料,同时结合了自己的思考来尝试解答这些问题。
(由于这篇文章成文到发表有一定时间间隔,无法溯源每张插图的出处,如果恰好你知道出处或者是图的原作者,告知后我会及时标注出处或者寻找其他示例代替。)
1.逐步回归为什么会得到负系数的变量?
一个已经引入的变量因为原先引入的变量变得不再显著时候就剔除掉。而显著性的方式是用Wald检验,判断每个系数的准确性。
逐步回归并不能排除变量共线性。如果变量之间存在相关性,逐步回归最终筛选的变量系数存在偏差。
2.为什么最终变量存在正负符号不一致的状况?
模型存在正负符号不一致的情况,提示变量之间存在存在线性相关。
关于线性相关的举例:
假设原始的线性回归公式为: y=w1x1+w2x2+w3x3
训练完毕的线性回归公式为: y=5x1+7x2+10x3 ①
此时加入一个新特征 x4 ,假设 x4 和 x3 高度相关, x4=2x3 。
则: y=w1x1+w2x2+w3x3+w4x4=w1