金融风控竞赛笔记2-使用EDA粗略分析数据

查看缺失值
data_train.isnull().any().sum() # how many column is null
查看缺失特征中缺失率大于5%的特征
在这里插入图片描述
缺失列的可视化:
在这里插入图片描述
这里缺失值很小,可以根据各列情况选择填充。
另外可以横向比较,如果在数据集中,某些样本数据的大部分列都是缺失的且样本足够的情况下可以考虑删除。

查看训练集测试集中特征属性只有一值的特征

查看特征的数值类型有哪些,对象类型有哪些
特征一般都是由类别型特征和数值型特征组成,而数值型特征又分为连续型和离散型。类别型特征有时具有非数值关系,有时也具有数值关系。比如‘grade’中的等级A,B,C等,是否只是单纯的分类,还是A优于其他要结合业务判断。

数值型特征本是可以直接入模的,但往往风控人员要对其做分箱,转化为WOE编码进而做标准评分卡等操作。从模型效果上来看,特征分箱主要是为了降低变量的复杂性,减少变量噪音对模型的影响,提高自变量和因变量的相关度。从而使模型更加稳定。

(1) 先分出numerical和categorical的list
(2) 划分数值型变量中的连续变量和离散型变量(numerical_serial_fea, numerical_noserial_fea),用value_counts()看一下离散型变量的情况,
(3) 进一步分析数值型变量,用pd.melt() 把一个变量作为id,剩下变量的保留id分成不同的行,每行对应一个变量,每行有一个"variable",和“value”,这样可以使用FacetGrid把几个列的分布表示在一个2*n的图表里面
(4) 查看数值型变量是否符合正态分布,如果不符合正太分布的变量可以log化后再观察下是否符合正态分布。(如果想统一处理一批数据变标准化 必须把这些之前已经正态化的数据提出)
(5) 用value_count看一下categorical变量的情况

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值