查看数据集中特征缺失值,唯一值
具体的查看缺失特征及缺失率
查看训练集测试集中特征属性只有一值的特征
查看特征的数值类型有哪些,对象类型有哪些
特征一般都是由类别型特征和数值型特征组成,而数值型特征又分为连续型和离散型。
类别型特征有时具有非数值关系,有时也具有数值关系。比如‘grade’中的等级A,B,C等,是否只是单纯的分类,还是A优于其他要结合业务判断。
数值型特征本是可以直接入模的,但往往风控人员要对其做分箱,转化为WOE编码进而做标准评分卡等操作。从模型效果上来看,特征分箱主要是为了降低变量的复杂性,减少变量噪音对模型的影响,提高自变量和因变量的相关度。从而使模型更加稳定。
划分数值型变量中的连续变量和离散型变量
数值类别型变量分析