查看缺失值
data_train.isnull().any().sum() # how many column is null
查看缺失特征中缺失率大于5%的特征
缺失列的可视化:
这里缺失值很小,可以根据各列情况选择填充。
另外可以横向比较,如果在数据集中,某些样本数据的大部分列都是缺失的且样本足够的情况下可以考虑删除。
查看训练集测试集中特征属性只有一值的特征
查看特征的数值类型有哪些,对象类型有哪些
特征一般都是由类别型特征和数值型特征组成,而数值型特征又分为连续型和离散型。类别型特征有时具有非数值关系,有时也具有数值关系。比如‘grade’中的等级A,B,C等,是否只是单纯的分类,还是A优于其他要结合业务判断。
数值型特征本是可以直接入模的,但往往风控人员要对其做分箱,转化为WOE编码进而做标准评分卡等操作。从模型效果上来看,特征分箱主要是为了降低变量的复杂性,减少变量噪音对模型的影响,提高自变量和因变量的相关度。从而使模型更加稳定。
(1) 先分出numerical和categorical的list
(2) 划分数值型变量中的连续变量和离散型变量(numerical_serial_fea, numerical_noserial_fea),用value_counts()看一下离散型变量的情况,
(3) 进一步分析数值型变量,用pd.melt() 把一个变量作为id,剩下变量的保留id分成不同的行,每行对应一个变量,每行有一个"variable",和“value”,这样可以使用FacetGrid把几个列的分布表示在一个2*n的图表里面
(4) 查看数值型变量是否符合正态分布,如果不符合正太分布的变量可以log化后再观察下是否符合正态分布。(如果想统一处理一批数据变标准化 必须把这些之前已经正态化的数据提出)
(5) 用value_count看一下categorical变量的情况