本次案例的数据来源为天善智能的课程《数据科学实战-python篇》,把课程认认真真的学习了一遍,看完老师讲的,自己再结合自己的思路,做出来的程序。
一、数据分析目标
通过脱敏过的数据,从贷款表loans、权限分配表disp、客户信息表clients、交易表trans中对数据进行描述性统计,得出对建模有用的数据,建立预测模型,预测正处于贷款期间的人的违约的概率。
二、业务理解
预测,就是在事情发生之前所做的事,案例的事件是贷款,所以,预测模型中所用的数据,应该是贷款的时间点之前的一段时间的情况。是否会违约是Y,贷款之前的一些信息为X。
是否违约,要从两个方面看,能不能还和想不想还。能不能还,就要分析这个人在贷款前的经济状况,是否稳定,还有就是所贷款的金额与自身的收入之间的关系。
经济状况是否稳定,可以看账户余额的均值与方差,求出变异系数,每个人的账户金额都不一样,所以不能用均值来判断,只能用金额的变动系数来判断经济状况的稳定。
所贷款的金额远远高于自己的收入,就有可能最后还不上,所以,需要求出货存比与贷存比来判断。
还得求出收入支出比,有收入才能有钱还贷款。
对于想不想还,就是看这个人的性格了。数据中没有关于这些数据,只有关于借贷人所在地区的基本信息,通过所在地区的犯罪率等信息,来间接判断性格的大概。
对于模型的选择,案例的情况属于分类,所以选择选择分类模型,而案例的这种这种情况,对于预测的结果,是主观进行判断的,可以用逻辑回归。
三、数据整理
数据的还款状态3种情