金融风控-贷款违约预测 -- task02

本文是关于金融风控中贷款违约预测的任务,主要进行数据可视化以探究各变量与违约风险的关系。发现违约比例较高且数据分布均衡;贷款多为短期,次级贷款违约率更高;工作年限长违约率低;债务收入比失衡,可能需要数据处理;部分特征如fico范围和验证状态需特殊处理。这些发现为特征工程提供了基础。
摘要由CSDN通过智能技术生成

金融风控-贷款违约预测

今天是task02的打卡时间点,作为社畜,时间着实紧张。EDA结果不是很好。但是也是作为一种记录,记录自己的学习过程。看到群里的小伙伴拿到0.73的成绩,我觉得,我也是可以的,周末好好加油学习,你也是可以的。

本章主要是进行数据可视化,探索可自变量与应变量之间的关系

首先看了变量类型,里面共有5个类别型变量,其余都为数值型变量。但是看了其分布,感觉这些数值型变量中,还有一些是类别型变量。

1 ) 贷款违约风险,及label Y变量“isDefault”,分布如下

因变量分布
贷款违约占比情况
从这个比例来看,违约的比例还是比较高的,数据的分布还算比较均衡的。

2)贷款金额分布
贷款金额分布情况
3)贷款年限分布

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值