今天的工作比较单纯,就是继续整理建模数据,从中也发现了数据中明显的错误,还有些数值型的错误还需要仔细check,没什么技术含量,今天比较有收获的是还是那个问题:是否变量分布越大,WOE变化也越大?
方法是采用模拟的形式,变量分成6类,固定每类的好坏比,固定总样本数,找到满足好坏比,总数约束,整数约束的一共79种分布,这其中33组的WOE唯一,46组WOE存在重复,所以分布变了,WOE不变的概率是多少呢?1%的概率不变,这个问题我还让了一手,因为我固定了每组好坏比,固定了总数,如果固定好坏比,不固定总数,那WOE更难不变,那如果好坏比和总数都不固定呢?固定总数是合理的,比如我真正放款了,我可以抽样出来和建模的总数一样,这时候分布可能和建模时候有了一些差异,可以计算一个PSI,那我现在假设好坏比不变,但现实中计算出Bt和Gt,很难有Bt+Gt=S,所以我们把S和好坏比都调成了比较整的形式,于是找到了79种分布,这个时候用33组独立的随便找一个为对照组,计算PSI变化和WOE变化的对应关系,WOE变化采用的是类MSE的形式,但是并没有展示出WOE的类MSE和PSI的同增同减,任选8组起始组,只有2组稍微有同增同减的趋势,难道我的猜想是错的?这个问题还有待研究!