零基础入门金融风控-贷款违约预测-Task02

最新推荐文章于 2023-03-10 14:08:50 发布

Code My Life

最新推荐文章于 2023-03-10 14:08:50 发布

阅读量1.2k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/upon120/article/details/108673592

版权

有幸参加了阿里云举办的零基础入门金融风控-贷款违约预测训练营。收获颇多。

每天记录一些自己之前的知识盲点，需经常温习。

第二次的学习任务，是EDA。即Exploratory Data Analysis，探索性数据分析。

一、数据集基本情况分析

数据集分为训练集和测试集。第一次任务时已经将训练集和测试集中重复的列进行了删除，最终形状如下：

通过train.info()可以查看训练集的基本信息（非空值数量、数据类型、行列数等）：

通过train.describe()可以查看训练集的一些基本统计量：

（注：为了防止列数过多导致显示不全，此处使用了.T进行了转置，算是一个小小的trick。）

二、查看数据集缺失值及唯一值

1、缺失值

通过train.isnull().sum()查看缺失值详细信息，包括都有哪些列是缺失值，以及具体缺失值的数量：

通过train.isnull().any().sum()查看缺失值列数的个数，发现共有21列（教程上没有删除重复列，写成了22列，其实是不对的hhh~）：

缺失值可视化（这里的代码实现方式和教程上不一样，二者皆可）：

2、唯一值

通过如下代码查看训练集的唯一值：

测试集代码相同，发现都是'policyCode'这一列，该列值全为1，没有实际区分意义，可以考虑在做特征工程阶段将其删除。

三、数据可视化

一图胜千言，数据可视化的魅力我想大家都有所体会吧！

变量类型可以大体上分为类别型变量和数值型变量，其中数值型变量可分为离散型数值变量和连续型数值变量。

而数据可视化，主要指的是数值型变量的可视化。通过生动形象的图形可以做出统计学相关的分析，如是数据集否服从正态分布、偏态、峰度等等。

从之前的train.info()中得知，训练集的数据类型有三种：object、int64和float64，object类型即为类别型变量，int64和float64为数值型变量。故可用如下代码获得类别型变量和数值型变量（这里的代码实现方式和教程上不一样，二者皆可）：

由于数值型变量可分为离散型数值变量和连续型数值变量，故可进行进一步划分。

未完待续。。。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
零基础入门金融风控-贷款违约预测-Task02

有幸参加了阿里云举办的零基础入门金融风控-贷款违约预测训练营。收获颇多。每天记录一些自己之前的知识盲点，需经常温习。第二次的学习任务，是EDA。即Exploratory Data Analysis，探索性数据分析。一、数据集基本情况分析数据集分为训练集和测试集。第一次任务时已经将训练集和测试集中重复的列进行了删除，最终形状如下：通过train.info()可以查看训练集的基本信息（非空值数...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。