LR模型对进入模型变量的要求
1、变量间不存在较强的线性相关性和多重共线性
2、变量具有显著性
3、变量具有合理的业务含义,符合业务逻辑
第1点,可以使用单变量分析和多变量分析得到一定的约束,但是未必充分;
第2点,从系数的P值进行检验;
第3点,从系数的符号进行检验。
变量的显著性
为了获取与目标变量有较高相关性的变量,要求最终入模的变量的系数的P值很小,例如低于0.1。如果发现模型中某些变量不显著,需要检验一下两种可能性:
1、该变量本身不显著;
2、该变量显著,但是由于有一定的线性相关性或者多重共线性,导致该变量在多元回归下不显著。
先检验1的可能性,如果排除,再检验2
检验1的方法:
将该变量单独与目标变量做逻辑回归模型,如果在单变量回归的情况下,系数的P值仍然较高,即表明该变量本身的显著性较低。
注:对于IV值较高的变量,1的可能性较低。
变量的正确性
在WOE的计算公式中,
W O E i = log ( G o o d i / G o o d t o t a l B a d i / B a d t o t a l ) = = log ( G o o d i B a d i ) − log ( G o o d t o t a l B a d t o t a l ) WOE_i = \log\left(\frac{Good_{i}/Good_{total}}{Bad_{i}/Bad_{total}}\right)==\log\left(\frac{Good_{i}}{Bad_{i}}\right)-\log\left(\frac{Good_{total}}{Bad_{total}}\right) WOEi=log(Badi/BadtotalGoodi/Goodtotal