金融风控--2-数据分析

这篇博客主要探讨金融风控中的数据分析,包括学习目标、具体内容和代码实战。重点讲解了数据的缺失值处理、特征类型分析、变量分布可视化、时间格式数据处理以及使用pandas_profiling生成数据报告,旨在理解数据基本情况、变量间关系以及提升模型稳定性。
摘要由CSDN通过智能技术生成

2.1 学习目标

  • 数据基本情况:缺失值、异常值
  • 变量间相互关系、变量与预测值之间的存在关系

2.2 具体内容

  • 总体了解:shape;info();describe()
  • 缺失值+唯一值
  • 两种类型数据:类别型数据和数值型数据(离散数值型和连续数值型)
  • 数据间相关关系(特征与特征之间+特征与目标变量之间)
  • 用pndas_profiling生成数据报告

2.3 代码部分

2.3.4查看缺失值的意义:

  • 纵向了解: 存在nan的字段,并把nan的个数打印,主要目的是在于查看某一列nan存在的个数是否真的很大,如果nan存在的过多,说明这一列对label的影响几乎不起作用了,可以考虑删掉;如果缺失值数量很小,一般可以选择填充。
  • 横向比较,如果在数据集中,某些样本数据的大部分列都是缺失的,且样本足够的情况下可以考虑删除。

tips:
lgb模型可以自动处理缺失值。

2.3.5特征类型

  • 特征一般都是由类别特征和数值型特征组成,而数值型特征又分为连续型和离散型。
  • 类别型特征:
    有数值型关系 or 没有数值关系,比如’grade’中的等级A、B、C等,是只是单纯的分类,还是A优于其他的要结合业务判断。
  • 数值型特征:
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值