零基础入门金融风控-贷款违约预测TASK 2
2.探索性数据分析(EDA)
了解数据,熟悉数据,为后续的特征工程做准备。
探索性数据分析(Exploratory Data Analysis,简称EDA),是指一种分析数据集以概括其主要特征的方法,通常使用可视化方法。
为之后的数据预处理和特征工程提供必要的结论。
目的:
1.EDA价值主要在于熟悉了解整个数据集的基本情况(缺失值,异常值),对数据集进行验证是否可以进行接 下来的机器学习或者深度学习建模;
2.了解变量间的相互关系、变量与预测值之间的存在关系;
3.为特征工程做准备.
其集中于检查模型拟合和假设检验所需的假设,以及处理缺少的值,并根据需要进行变量转换。
2.1数据载入
载入数据语句:
train = pd.read_csv('./train.csv');
// 前几行的显示语句
train.head();
显示结果:

2.2初步观察
导入数据后,对数据的整体结构和样例进行概览。
2.2.1基本信息
train.info();
显示结果:



本文通过探索性数据分析(EDA)对金融风控中的贷款违约数据进行深入研究,包括数据载入、初步观察、数据清洗等步骤,旨在了解数据特征、处理缺失值和异常值,为后续的特征工程和模型建立打下基础。
最低0.47元/天 解锁文章
696

被折叠的 条评论
为什么被折叠?



