1、上午主要是开发新的rolling variable,算出woe,明天可以完成
2、另外一个主要工作是和新同事交流,关于两个变量分布变化对woe的影响,有一些新的发现,我推翻了昨天自己的猜想,也就是分布变化,woe一定会改变,我发现是能构造出分布改变,但是woe不变的情况,而且分布的变化是能通过卡方检验的,还有就是第二个猜想,分布变化越大,woe变化越大,同事构造的一些数据也说明了不一定成立,我这里衡量分布变化分别用到了卡方检验的p-value,PSI,平均偏差平方和,平均绝对偏差和,woe变化的度量主要是用到平均绝对偏差和、平均偏差平方和,都发现我第二个猜想不成立,于是我想了另外一招,不用构造的方式,而是用随机生成的方式去模拟现实的分布变化,然后让这两个猜想在大概率的情况下成立,这样也是符合我的预期,而且这个实验的方法也是可以解决我第二个问题,大概率服从分布变化越大,woe变化越大,我觉得这是个很有意义的研究内容
3、今天还好,杂事比较少,剩下的大部分时间,开始抄作业,主要学习比较骚气的EDA方法,里面有丰富的画图库使用方法,值得学习,主要就是合理地应用统计图表,还有一些探索思路,这个明天再小结一下
- pandas提供了一些option设置
这个设置会关闭掉copywarning,也有人提问到关闭这个warning过后,速度更快,有待验证<pd.options.mode.chained_assignment = None