Datawhale学习笔记【零基础入门金融风控——贷款违约预测】(Task2 EDA+Task 3 特征工程)
只是一些学习记录
主要内容
1、载入数据科学以及可视化库:numpy、pandas、seaborn、matplotlib等
2、载入数据:载入训练集和测试集、总体观察数据(head+shape+info+describe)
3、判断数据缺失和异常:查看每列NaN情况、唯一值
4、查看数据类型:分为类别特征和数值特征
未完待续。
查看数据缺失情况:
data_train.isnull().sum()
缺失情况可视化:
missing = data_train.isnull().sum()
missing = missing[missing > 0]
missing.sort_values(inplace=True)
missing.plot.bar()
可视化看缺省值:
# Matrix是使用最多的函数,能快速直观地看到数据集的完整性情况,矩阵显示
msno.matrix(data_train.sample(250))
# msno.bar可以简单的展示无效数据的条形图
msno.bar(data_train.