金融风控task02


本文是Datawhale数据挖掘实战打卡第二篇,主要是对数据进行探索性分析,熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。引导后续数据处理以及特征工程的开展,使数据集的结构和特征集让接下来的预测问题更加可靠。

1.数据集的的查看

1.1数据的查看

载入数据后随机 sample() 查看10行数据
在这里插入图片描述
info() 来查看数据有多少行,是否有缺失值,以及每列的数据类型,可以看到数据共有47列,800000万条记录,数据类型有int,float,object。
在这里插入图片描述

1.2缺失值查看

快速查看一下数据中的缺失值
在这里插入图片描述
可以看出数据缺失项主要集中在employmentLength,dti ,pubRecBankruptcies,revolUtil。employmentTitle,title 都仅仅含有一个缺失值。至于n1~n12数据可以通过如下代码发现都有4%-9%数据的缺失。

for col in data.columns:
    pct_missing=np.mean(data[col].isnull())
    print('{} - {}%'.format(col,round(pct_missing*100)))

1.3定性/定量数据查看

定量数据的查看:

df_numeric=data.select_dtypes(include=[np.number])
num_cols=df_numeric.columns.values
print(num_cols)

定量数据
定性数据的查看:

df_no_numeric=data.select_dtypes(exclude=[np.number])#选择的是非数值型的
no_num_cols=df_no_numeric.columns.values
print(no_num_cols)

定性数据

1.4数据的初步清理

2.数据的四个等级的操作

©️2020 CSDN 皮肤主题: 1024 设计师:上身试试 返回首页