【机器学习-贷款用户逾期情况分析2】1.数据预处理

0.数据介绍

数据的下载地址 https://pan.baidu.com/s/1wO9qJRjnrm8uhaSP67K0lw

注:这份数据集是金融数据(非原始数据,已经处理过了),我们要做的是预测贷款用户是否会逾期。表格中 "status" 是结果标签:0表示未逾期,1表示逾期。注意这个数据跟我上几篇博客的数据不一样。
 

1.数据预处理

  1.1数据类型的分析

(1)划分数据和标签

我们加载文件后划分数据和标签后打印前5行代码和效果如下:

data = pd.read_csv('F:/competition/一周实践进阶/data.csv',encoding='gbk')
label = data.status
data = data.drop(['status'], axis=1)
data.head(5)

(2)info()方法可以快速查看数据的描述,特别是总行数、每个属性的类型和非空值的数量。

后面的省略,我们可以看到数据集中一共有4754个实例。但有些属性比如transd_mcc只有4752个非空值,意味着有2个用户缺失这个值,其余的类似。我们可以看到这里有的类型是数值,有的类型是object,但是因为该项是从CSV文件加载的,所以必然是文本类型的

(3)value_counts() 看每个类别有多少数据

value_counts()方法可以查看某项中有哪些类别,每个类别中都包含多少个用户,比如“reg_preference_for_trad”这项:

(4)describe()

describe()方法可以展示数值属性的概括,如下图:

其中,count是非空值的总数量,mean是平均数,std是标准差,25%,50%,75%表示对呀的分位数。

(5)柱状图 Hint()

另一个快速了解速度类型的方法是画出每个数值属性的柱状图。柱状图的纵轴展示了特定范围的实例的个数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值