金融风控竞赛笔记2-使用EDA粗略分析数据

本文记录了金融风控竞赛中的数据探索过程,包括检查数据集的样本数、特征维度,分析缺失值、唯一值,以及数值型和类别型特征的分布。讨论了如何处理缺失值和单一值的特征,并探讨了数值型特征的分箱和正态分布检查,为后续建模提供基础。
摘要由CSDN通过智能技术生成

官方给出的方法

  1. 查看数据集的样本个数和原始特征维度(使用shape(), columns(), info(), describe())
    特殊方法:data_train.head(3).append(data_train.tail(3)) 查看头尾数据
  2. 查看数据集中特征缺失值,唯一值等
    查看缺失值
    data_train.isnull().any().sum() # how many column is null
    查看缺失特征中缺失率大于5%的特征
    在这里插入图片描述
    缺失列的可视化:
    # nan可视化
    missing = data_train.isnull().sum()/len(data_train)
    missing = missing[missing > 0]
    missing.sort_values(inplace=True)
    missing.plot.bar()
    

在这里插入图片描述
这里缺失值很小,可以根据各列情况选择填充。
另外可以横向比较,如果在数据集中,某些样本数据的大部分列都是缺失的且样本足够的情况下可以考虑删除。

查看训练集测试集中特征属性只有一值的特征

one_value_f
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值