0.数据介绍
数据的下载地址 https://pan.baidu.com/s/1wO9qJRjnrm8uhaSP67K0lw
注:这份数据集是金融数据(非原始数据,已经处理过了),我们要做的是预测贷款用户是否会逾期。表格中 "status" 是结果标签:0表示未逾期,1表示逾期。注意这个数据跟我上几篇博客的数据不一样。
1.数据预处理
1.1数据类型的分析
(1)划分数据和标签
我们加载文件后划分数据和标签后打印前5行代码和效果如下:
data = pd.read_csv('F:/competition/一周实践进阶/data.csv',encoding='gbk')
label = data.status
data = data.drop(['status'], axis=1)
data.head(5)
(2)info()方法可以快速查看数据的描述,特别是总行数、每个属性的类型和非空值的数量。
后面的省略,我们可以看到数据集中一共有4754个实例。但有些属性比如transd_mcc只有4752个非空值,意味着有2个用户缺失这个值,其余的类似。我们可以看到这里有的类型是数值,有的类型是object,但是因为该项是从CSV文件加载的,所以必然是文本类型的
(3)value_counts() 看每个类别有多少数据
value_counts()方法可以查看某项中有哪些类别,每个类别中都包含多少个用户,比如“reg_preference_for_trad”这项:
(4)describe()
describe()方法可以展示数值属性的概括,如下图:
其中,count是非空值的总数量,mean是平均数,std是标准差,25%,50%,75%表示对呀的分位数。
(5)柱状图 Hint()
另一个快速了解速度类型的方法是画出每个数值属性的柱状图。柱状图的纵轴展示了特定范围的实例的个数。