2017.07.25回顾 骚气EDA研究学习

本文记录了一天的工作,主要内容包括研究分布变化对WOE值的影响,通过实验推翻并验证了相关猜想;学习并总结了各种EDA(Exploratory Data Analysis)方法,如统计图表的应用、Seaborn和matplotlib的绘图技巧,以及数据处理的一些实用技巧,如处理datetime字段、缺失值和重复值的探索等。
摘要由CSDN通过智能技术生成

1、上午主要是开发新的rolling variable,算出woe,明天可以完成

2、另外一个主要工作是和新同事交流,关于两个变量分布变化对woe的影响,有一些新的发现,我推翻了昨天自己的猜想,也就是分布变化,woe一定会改变,我发现是能构造出分布改变,但是woe不变的情况,而且分布的变化是能通过卡方检验的,还有就是第二个猜想,分布变化越大,woe变化越大,同事构造的一些数据也说明了不一定成立,我这里衡量分布变化分别用到了卡方检验的p-value,PSI,平均偏差平方和,平均绝对偏差和,woe变化的度量主要是用到平均绝对偏差和、平均偏差平方和,都发现我第二个猜想不成立,于是我想了另外一招,不用构造的方式,而是用随机生成的方式去模拟现实的分布变化,然后让这两个猜想在大概率的情况下成立,这样也是符合我的预期,而且这个实验的方法也是可以解决我第二个问题,大概率服从分布变化越大,woe变化越大,我觉得这是个很有意义的研究内容

3、今天还好,杂事比较少,剩下的大部分时间,开始抄作业,主要学习比较骚气的EDA方法,里面有丰富的画图库使用方法,值得学习,主要就是合理地应用统计图表,还有一些探索思路,这个明天再小结一下

  • pandas提供了一些option设置
    pd.options.mode.chained_assignment = None
    这个设置会关闭掉copywarning,也有人提问到关闭这个warning过后,速度更快,有待验证<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值