数据清洗的基本流程_基于Python对金融贷款还款数据的数据清洗具体操作方法及基本情况分析...

67f7ed2f0b06a3864e37d26872ae6efd.png

Part 1. 数据获取

1.1 数据集简介

数据集下载地址:科赛 - Kesci.com,并从数据包中选择LP表,所提供数据来自拍拍贷真实业务数据

LP (Loan Periodic) 表:

标的还款计划和还款记录,每支标每期还款为一条记录。 还款记录和状态更新至2017年2月22日。共有10个字段,包括两个主键(listingid和期数),3个还款计划字段和4个还款状态字段。

1.2 数据集内容

数据集为csv格式,文件大小198M。数据共计10个字段,3203276条。具体字段如下:

171ca332ef528757588133f4ed3e1d7b.png

预览数据集:

bef75d2f6a0b3dde59c263b1c94c3580.png

Part 2. 提出问题

根据数据集提出问题如下:

1.还款状态维度:

(a)各还款状态下的单数如何?

(b)各还款状态下的应还本金、应还利息、剩余本金、剩余利息分别的汇总情况?

2.还款期数维度:

(a)各还款期数下的单数如何?

(b)各还款期数下的应还本金、应还利息、剩余本金、剩余利息分别的汇总情况?

3.到期日期维度:

(a)各到期日期下的单数如何?

(b)各到期日期下的应还本金、应还利息、剩余本金、剩余利息分别的汇总情况?

4.ID维度:

(a)各id下的还款期数如何?

(b)各ID下的应还本金、应还利息、剩余本金、剩余利息分别的汇总情况?

(c)各ID下各情况的明细表是怎么样的?

5.结合还款期数和各还款状态二个维度:

(a)在各还款期数下,各还款状态的单数情况?

(b)在各还款期数下,各还款状态的剩余本金情况?

6.结合还款状态和各到期日期二个维度:

(a)在各到期日期下,各还款状态的单数情况?

(b)在各到期日期下,各还款状态的剩余本金情况?

7.其他维度:

(a)截止到记录日期当天剩余本金和剩余利息的情况?

(b)时间差的分布情况如何?

根据上述问题按如下思路进行分析:

8a5f7c93d9fdb7902a8708812679b7c2.png

Part 3. 清洗数据

数据清洗部分思路如下:

8751568a20c4107e5d2c6a6870d46a59.png

3.0 导入数据

首先导入相关包、读取数据、查看各列数据类型:

b5ad818469a1b6545dc3f764d0397b8c.png

查看各列数据类型:

758db4d722dc3f535a6776a2193304e5.png

3.1 选择子集

acb64a83a77599853c7dd9f5f11f60f0.png

3.2 删除重复值

我们规定,若所有字段的值都完全相同,则视为重复数据,仅保留一条。

d7fba4de9f4899c2ff033ac2d4993610.png

3.3 查看并处理缺失值

0c329626e3f57131dacc68b23681a09d.png

无缺失值

若有缺失值时可按如下方法操作:

578709209720057d41e09c66083c21e3.png

3.4 列名重命名

7510e016ea1f5bc5339fa27adc76c8aa.png

3.5一致化处理

3.4.1 时间相关信息的一致化

首先将和时间相关的行转为pandas能处理的时间格式datetime:

c6d405cca1590ac0886082fb098edb31.png

3.4.2 数据类型的转换

c931afb0ff43443a5ee7089cf7768fcf.png

查看改名并更改数据类型后各字段的数据类型:

90edaef9012fafa882dd4a06d4b038bd.png

增加字段【时间差】用于存放该行数据的还款时间与到期时间的时间差:

8ecba9b92b1357b2d3a2cb2596e5ea67.png

aca4775c7d3a67933e827250fff50bd4.png

3.5 异常值处理

为了探究是否存在异常值,我们查看总体的描述性统计情况:

cc04bda45e68da44e005c0e39b22d60c.png
  1. 时间差与其他维度不相等原因为数据集中有部分标为尚未还款的,但其他维度和总计数是一致的。帮不存在计数方面的异常。
  2. 时间差出现负值是因为存在提前还款的情况,所以还款日期早于到期日期,为合理情况。查看时间差为负值的数据集、时间差为正值的数据集(两种不同的方法)

63ec46c9386753f1a9b7a784ad0a9136.png

9b3147c11b9678365aaad10e99f1c168.png

替换时间差单元格的内容

ac0a2561aafc37959cbe66a8bba3f22f.png

5907f4ef0a35c80e3ac66f00b6b08f4d.png

至此数据清洗告一段落

Part 4. 分析

4.1 还款情况各维度的统计分析(一维)

4.1.1.还款状态维度:

4.1.1(a)各还款状态下的单数如何?

cc6550c7ac6cd411b73ef9a4fdb4e267.png

d8271fcc6e0d3bcd2deec3c4441c8bc2.png

以上三个图均展示同一个结果,用了三种句法。

4.1.1(b)各还款状态下的应还本金、应还利息、剩余本金、剩余利息分别的汇总情况?

d40e05a88428eef648e32af11da6b1e8.png

bb9bb63797053a1095d121bf6361676e.png

结合业务指标含义进行理解:

  1. 截止表格记录日期当天,还款状态=0说明:仍有应还本金=剩余本金:590863545.59,应还利息=剩余利息:47102666.15.这些为新借款,正在等待第一期的还款。
  2. 截止表格记录日期当天,还款状态=1、还款状态=3说明:正常还款的本金和利息。
  3. 截止表格记录日期当天,还款状态=2说明:有过逾期偿还应还本金和应还利息的情况。因剩余本金和剩余利息均为0,说明还款状态=2的代表当月在到期日期时没有按期还款,出现晚还的情况,但最后偿还了。
  4. 截止表格记录日期当天,还款状态=4说明:目前仍未收回的剩余本金为679782.82;剩余利息为68166.42。共有1080单。此部分是需要追偿并且需要进行坏帐分析的部分。

4.1.2.还款期数维度:

4.1.2(a)各还款期数下的单数如何?

cfef09c4405e2a557bfc6d74574b0198.png

结合业务指标含义进行理解:

截止表格记录日期当天,处于各期的还款在陆续减少。分别以第6期、第12期为骤降拐点。

4.1.2(b)各还款期数下的应还本金、应还利息、剩余本金、剩余利息分别的汇总情况?

7bd5b2b9c5d5756dfb02e033ab9d1bc9.png

结合业务指标含义进行理解:

截止表格记录日期当天,处于各期的应还本金在陆续减少。分别以第6期、第12期为骤降拐点。

4.1.2(c)各还款期数下,各ID的应还本金、剩余本金、剩余利息的明细情况

b1531ed8ace9ca58780ecb21ad3069c1.png

2d7257fc6e57e2c81e43d173634ad4e1.png

57da4bfc7e966966da4e0b0fa53e612f.png

4.1.2(d)对各ID下的最大期数进行查找并以ID方式进行聚合

1f2df4ead0b556188ef6a7963f30b429.png

4.1.2(e)对各ID下的剩余本金进行求和并以ID方式进行聚合

47c89f258b255ba8a6c1cc961953ccb4.png

4.1.2(f)对上述两表(d)((e)进行合并,并以ID作为索引(上为查找的最大数、下为求和)

c07aa6ea2b2079bc5a3da950fab7b34a.png

4.1.2(g)对各ID下的剩余本金、应还本金、应还利息、剩余利息进行求和并以ID方式进行聚合,(各维度聚合的方式均为求和)

38b29283eb4c265deb66c58533a78b14.png

4.1.3到期日期维度:

4.1.3(a)各到期日期下的应还本金、应还利息、剩余本金、剩余利息分别的汇总情况?

2c208a9d1385aa952363b7ed6fd178c5.png

结合业务指标含义进行理解:

截止表格记录日期当天,剩余本金和剩余利息不为0的为当天逾期未还的。需要进行逾期处理及坏帐情况分析。

4.2 结合两个维度的统计分析(二维)

4.2.1结合还款期数和各还款状态二个维度:

4.2.1(a)在各还款期数下,各还款状态的单数情况?

b8ec2f47fa67772f233631792a1ef3c5.png

bb9bb63797053a1095d121bf6361676e.png

4.2.1(b)在各还款期数下,各还款状态的剩余本金情况?

dfac1e2ab5c543da0eeca0ef82531355.png

bb9bb63797053a1095d121bf6361676e.png

4.2.2结合还款状态和各到期日期二个维度:

4.2.2(a) 在各到期日期下,各还款状态的单数情况?

bf5df3ca1c5e2f8c1ddc1a8e2571a926.png

4.2.2(b) 在各到期日期下,各还款状态的剩余本金情况?

15164d200d47e4213a25361495ba31bc.png

结合业务指标含义进行理解:

上述两笔综合反映各到期日期下各还款状态中的单数和各金额维度的金额。

4.3.其他维度:

4.3.1截止到记录日期当天剩余本金和剩余利息的情况?

0bbcf18c171e86ccffa0c11791e0903f.png

结合业务指标含义进行理解:

截止到记录日期平台仍有591543328.41剩余本金和47170832.58剩余利息待收回。

4.3.2截止到记录日期时间差与不同维度结合的分布情况?

e6c7e1a76d88a60b99fe8e8f6fc815f2.png

38e64e4f5f32e0db8d3af26ea529beee.png

e1e31643585a6da8e2652dea10a2deb1.png

结合业务指标含义进行理解:

从图中可以看出提前还款的时间差和逾期还款的时间差的分布情况。从而整体反映平台借款人还款时间观念和还款意愿的表征。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值