目录
在银行借贷场景中,评分卡是一种以分数形式来衡量一个客户的信用风险大小的手段,它衡量向别人借钱的人(受信人,需要融资的公司)不能如期履行合同中的还本付息责任,并让借钱给别人的人(授信人,银行等金融机构)造成经济损失的可能性。一般来说,评分卡打出的分数越高,客户的信用越好,风险越小。
这些
”
借钱的人
“,可能是个人,有可能是有需求的公司和企业。对于企业来说,我们按照融资主体的融资用途,分别使用企业融资模型,现金流融资模型,项目融资模型等模型。而对于个人来说,我们有
”
四张卡
“来评判个人的信用程度:
A
卡,
B
卡,
C
卡和
F
卡。而众人常说的
“
评分卡
”
其实是指
A卡,又称为申请者评级模型,主要应用于相关融资类业务中
新用户的主体评级,即判断金融机构是否应该借钱给一个新用户,如果这个人的风险太高,我们可以拒绝贷款。
一个完整的模型开发,需要有以下流程:
今天我们以个人消费类贷款数据,来为大家简单介绍
A
卡的建模和制作流程,由于时间有限,我们的核心会在
”数据清洗
“
和
“
模型开发
”
上。模型检验与评估也非常重要,但是在今天的课中,内容已经太多,我们就不再去赘述了。
3.1 导库,获取数据
%matplotlib inline
import numpy as np
import pandas as pd
from sklearn.linear_model import LogisticRegression as LR
在银行系统中,这个数据通常使来自于其他部门的同事的收集,因此千万别忘记抓住给你数据的人,问问她/他各个项都是什么含义。通常来说,当特征非常多的时候(比如几百个),都会有一个附带的excel或pdf文档给到你,备注了各个特征都是什么含义。这种情况下其实要一个个去看还是非常困难,所以如果特征很多,建议先做降维,具体参考“2.2.2 逻辑回归中的特征工程”。
data = pd.read_csv(r"E:\数据分析师学习\data\rankingcard.csv"
,engine = 'python'
,index_col=0)
3.2 探索数据与数据预处理
在这一步我们要样本总体的大概情况,比如查看缺失值,量纲是否统一,是否需要做哑变量等等。其实数据的探索和数据的预处理并不是完全分开的,并不一定非要先做哪一个,因此这个顺序只是供大家参考。
![](https://i-blog.csdnimg.cn/blog_migrate/072744cf0f7591fc627188979eabb4b7.png)
3.2.1 去除重复值
现实数据,尤其是银行业数据,可能会存在的一个问题就是样本重复,即有超过一行的样本所显示的所有特征都一样。有时候可能时人为输入重复,有时候可能是系统录入重复,总而言之我们必须对数据进行去重处理。可能有人会说,难道不可能出现说两个样本的特征就是一模一样,但他们是两个样本吗?比如,两个人,一模一样的名字,年龄,性别,学历,工资
……当特征量很少的时候,这的确是有可能的,但一些指标,比如说家属人数,月收入,
已借有的房地产贷款数量等等,几乎不可能都出现一样。尤其是银行业数据经常是几百个特征,所有特征都一样的
可能性是微乎其微的。即便真的出现了如此极端的情况,我们也可以当作是少量信息损失,将这条记录当作重复值除去。
#去除重复值
data.drop_duplicates(inplace=True)
data.info()
#删除之后千万不要忘记,恢复索引
data.index = range(data.shape[0])
data.info()
3.2.2 填补缺失值
#探索缺失值
data.info()
第二个要面临的问题,就是缺失值。在这里我们需要填补的特征是
“
收入
”
和
“
家属人数
”
。
“
家属人数
”缺失很少,仅缺失了大约
2.5%
,可以考虑直接删除,或者使用均值来填补。
“
收入
”
缺失了几乎
20%
,并且我们知道,
“
收入
”必然是一个对信用评分来说很重要的因素,因此这个特征必须要进行填补。在这里,我们使用均值填补
“
家属人数
”
。
data["NumberOfDependents"].fillna(int(data["NumberOfDependents"].mean()),inplace=True) #如果你选择的是删除那些缺失了2.5%的特征,千万记得恢复索引哟~
data.info()
data.isnull().sum()/data.shape[0]
那字段
"
收入
"
怎么办呢?对于银行数据来说,我们甚至可以有这样的推断:一个来借钱的人应该是会知道,
“高收入
”
或者
“
稳定收入
”
于他
/她自己而言会是申请贷款过程中的一个助力,因此如果收入稳定良好的人,肯定会倾向于写上自己的收入情况,那么这些“收入”栏缺失的人,更可能是收入状况不稳定或收入比较低的人。基于这种判断,我们可以用比如说,四分位数来填补缺失值,把所有收入为空的客户都当成是低收入人群。当然了,也有可能这些缺失是银行数据收集过程中的失误,我们并无法判断为什么收入栏会有缺失,所以我们的推断也有可能是不正确的。具体采用什么样的手段填补缺失值,要和业务人员去沟通,观察缺失值是如何产生的。在这里,我们使用随机森林填补
“
收入
”
。
还记得我们用随机森林填补缺失值的案例么?随机森林利用
“
既然我可以使用
A
,
B
,
C
去预测
Z,那我也可以使用A
,
C
,
Z
去预测
B”
的思想来填补缺失值。对于一个有
n
个特征的数据来说,其中特征
T
有缺失值,我们就把特征
T当作标签,其他的
n-1
个特征和原本的标签组成新的特征矩阵。那对于
T来说,它没有缺失的部分,就是我们的Y_train
,这部分数据既有标签也有特征,而它缺失的部分,只有特征没有标签,就是我们需要预测的部分。
特征
T
不缺失的值对应的其他
n-1
个特征
+
本来的标签:
X_train
特征
T
不缺失的值:
Y_train
特征
T缺失的值对应的其他
n-1
个特征
+
本来的标签:
X_test
特征
T缺失的值:未知,我们需要预测的Y_test这种做法,对于某一个特征大量缺失,其他特征却很完整的情况,非常适用。更具体地,大家可以回到随机森林地课中去复习。
之前我们所做的随机森林填补缺失值的案例中,我们面临整个数据集中多个特征都有缺失的情况,因此要先对特征排序,遍历所有特征来进行填补。这次我们只需要填补
“
收入
”一个特征,就无需循环那么麻烦了,可以直接对这一列进行填补。我们来写一个能够填补任何列的函数:
def fill_missing_rf(X,y,to_fill):
"""
使用随机森林填补一个特征的缺失值的函数
参数:
X:要填补的特征矩阵
y:完整的,没有缺失值的标签
to_fill:字符串,要填补的那一列的名称
"""
#构建我们的新特征矩阵和新标签
df = X.copy()
fill = df.loc[:,to_fill]
df = pd.concat([df.loc[:,df.columns != to_fill],pd.DataFrame(y)],axis=1)
# 找出我们的训练集和测试集
Ytrain = fill[fill.notnull()]
Ytest = fill[fill.isnull()]
Xtrain = df.iloc[Ytrain.index,:]
Xtest = df.iloc[Ytest.index,:]
#用随机森林回归来填补缺失值
from sklearn.ensemble import RandomForestRegressor as rfr
rfr = rfr(n_estimators=100)
rfr = rfr.fit(Xtrain, Ytrain)
Ypredict = rfr.predict(Xtest)
return Ypredict