信用评分卡模型是最常见的金融风控手段之一,它是指根据客户的各种属性和行为数据,利用一定的信用评分模型,对客户进行信用评分,据此决定是否给予授信以及授信的额度和利率,从而识别和减少在金融交易中存在的交易风险。通过将模型变量WOE编码的方式离散化之后用LOGISTIC模型进行二分类的广义线性模型。
本文通过对kaggle上的Give Me Some Credit数据的挖掘分析,结合信用评分卡的建立原理,从数据的预处理、变量筛选、建模分析、模型评估、创建信用评分卡到建立自动评分系统,创建了一个简单的信用评分系统。
1.工作原理
客户的信用评分卡是基于统计模型,它通过对当前申请人的各项资料进行评估并给出一个分数,该评分能定量的对申请人的偿债能力做出预判。
评分卡由一系列的特征项组成,比如申请人的年龄、月收入、信贷数量等;每个特征项都有一系列的可能的属性,例如每个年龄段是年龄特征项的属性。在开发评分卡系统模型中,先确定属性与申请人未来信用表现之间的相互关系,然后给属性分配适当的分数权重,分配的分数权重要反映这种相互关系。分数权重越大,说明该属性表示的信用表现越好。一个申请的得分是其属性分值的简单求和。如果申请人的信用评分大于等于金融放款机构所设定的界限分数,此申请处于可接受的风险水平并将被批准;低于界限分数的申请人将被拒绝或给予标示以便进一步审查。
2.开发流程
数据获取 → 数据前期探索 → 数据预处理 → 变量筛选 → 逻辑回归模型开发 → 模型评估 → 生成评分卡
2.1 数据导入
cs<-read.csv("cs-training.csv")
cs<-cs[,-1]
names(cs)<-c("好坏客户","可用额度比值","年龄","逾期30至59天比数","负债率","月收入","信贷数量","逾期90天比数", "固定资产贷款量","逾期60至89天比数","家属数量")
**2.2 数据预处理
2.2.1 缺失值处理**
missmap(cs,main="Missing and Obersved",col=c("yellow","red"))
md.pattern(cs)
对缺失值进行可视化展示