1、开始研究新的外部数据源,前海征信的常贷客数据,花了很多时间进行数据整理,了解数据的含义,最后初步做了两个分析,没有显示出预测能力,主要是这个数据不太精准
2、数据整理过程中涉及到一个新的技巧,navicat可以直接导入excel的数据,navicat导入向导直接导入,没有表的话,navicat可以自动建,有一些图形化的操作,可以命名字段名类型等,多的数据也可以分步导入,不会影响,但是应该字段要能对应吧!
3、还研究了一下相关性和关联性的问题,两个连续变量的相关性用的是pearson相关系数,两个分类变量可以用卡方检验,但是有个奇怪的地方就是说,本来我的变量是连续性变量,但是我用WOE编码转换成了分类变量,对于这两个变量做卡方检验应该是没有问题的把?还是说不编码,直接对两个连续变量做pearson相关系数,但是这样就面临一个问题,连续性变量有缺失值,这应该怎么处理才好呢?