一、背景描述
拍拍贷,美国纽交所上市公司。成立于2007年6月遵从金融本质,以数据为基石,用创新技术为用户提供最便捷可得的借款撮合服务,拍拍贷平台借款端服务包括面向广大个人用户的通用性借款和其他借款。
二、业务指标
如果你不能衡量它,那么你就不能有效增长它。那么衡量的工具就是业务指标了。那是不是有指标就行了呢,当然不是。指标也是有好和坏之分。好的指标应该是核心指标并且应该是比例和比率这样的指标才有意义。而没有意义的指标肯定是坏指标,例如虚荣指标,只关注下载量、阅读量不关注真正的转化率,还有后验性指标和过于复杂的指标都属于坏指标。
互金行业领域风险业务指标尤为关键。风险业务指标包括:逾期天数DPD、逾期期数、逾期阶段、即期指标、递延指标、月底结算、期末结算、延滞率、不良贷款率、转呆账率、净损失率、FPD(首次还款逾期)。
三、提出问题
互联网金融行业,逾期以及不良资产问题一直都是影响企业财报及业绩发展的绊脚石,我们想集中研究逾期占比在各个维度中较高的特征,依次来得出失信客户的整体特征,来帮助企业降低违约风险比率、给放贷与否及额度以指导、规避违约带来的收益损失。以及分析各维度的不良贷款情况,以及放贷比例,给企业提出一些有效的参考意见。
用户维度:
1)失信用户画像,初始认证等级、年龄、性别、学历等维度的逾期占比分布情况如何?
2)失信用户行为分析,是否开淘宝店,是否有征信报告、是否完成户口认证、是否完成视频认证,是否第一次借款的逾期占比情况如何?
业务维度:
3)不同的年龄、性别会对还款能力和还款意愿产生什么影响?以及各年龄段、性别的放贷比例?
4)不良贷款率与不同的初始评级之间有什么相关性?以及各初始评级的放贷比例?
5)借款属性(类型、利率、金额、期限)的不同会对还款产生影响么?以及各借款属性的放贷比例?
基于以上信息,我们从用户画像以及不良贷款率两个业务指标出发,按照以下思路进行分析。选择以下16个维度对数据进行分析:借款金额、借款期限、借款利率、初始评级、借款类型、是否首标、年龄、性别、手机认证、户口认证、视频认证、学历认证、征信认证、淘宝认证、标当前逾期天数、待还本金。
四、熟悉数据集
数据来源,拍拍贷真实业务数据,从2015-01-01到2017-01-30的所有信用标的10%sample样本。LC、LCIS、LP三个文件选取我们需要用的LCIS。
数据共有37个字段,数据大小69MB,292539条信贷记录。
五、数据清洗
图5.1 导入数据
1),将csv文件导入Navicat Premium中
2),重命名
3),空值、重复值处理
检查发现客户编号在记录日期限制条件下,有106个重复值。
执行以上语句,再次检查新表内空值和重复值均处理完成。
4),异常值处理
检查发现,手机认证,户口认证,记录日期存在异常值
将异常值做删除处理,得到处理完成的表lcisnew,共291230列。
5),检查数据,发现已经很完备,无需再做一致化处理
六、数据分析
1),用户维度
逾期用户画像—用户基本信息,初始评级、年龄、性别、学历分布
a),初始评级逾期占比分布
-- 逾期客户中初始评级人数占比分布(优化)
SELECT
初始评级,CONCAT(ROUND(COUNT(客户编号)*100/(SELECT COUNT(客户编号) FROM lcisnew WHERE 标当前逾期天数 > 0),2),'%') AS '逾期客户评级人数占比'
FROM lcisnew
WHERE 标当前逾期天数 > 0
GROUP BY 初始评级
ORDER BY 初始评级;
逾期情况最多发生在初始评级为C和B的用户里,两项之后高达72%,是第三名D评级13.03%的5.55倍。其余A评级的逾期客户占比是8.07%,AA是3.3%、E级为3.03%、F级为0.14%、最低的是AAA级,仅为0.06%。对于C和B级用户,逾期人数那么高,是否意味着人群质量就很差?为什么会有那么多的逾期用户呢?我们从初始评级客户人数占比、初始评级逾期占比来进一步分析。
-- 初始评级人数占比分布(优化)
SELECT
初始评级,CONCAT(ROUND(COUNT(客户编号)*100/(SELECT COUNT(客户编号) FROM lcisnew),2),'%') AS '客户数占比'
FROM lcisnew
GROUP BY 初始评级
ORDER BY 初始评级;
-- 初始评级逾期占比分布
SELECT
初始评级,CONCAT(ROUND(初始评级逾期数量*100/初始评级总数,2),'%') AS '逾期占比'
FROM
(SELECT 初始评级,
SUM(CASE WHEN 标