目录
风控模型是风控系统的核心,应用模型进行风险决策是识别风险的主要途径,也是控制风险的重要手段。
样本、特征、标签
构建机器学习模型时需要一个数据集。德国信用卡数据集是信贷领域的一个经典数据集在统计学习和机器学习领域,它经常被用作示例。该数据集共有1000条数据,这样一个特定的数据集称为样本集。样本集中的第一行是名称,其余每一行为一个样本(或称为一条记录一个观测)。
特征是用来表征我们关注对象的特点或属性的一系列数据。德国信用卡数据集中有2)个特征,包括账户状态(status.of.existing.checking.account)、信贷期限(duration in.month)、历史支付状态(credit.history)和贷款用途(purpose)等,用于反映客户的不同属性。
标签是机器学习模型将要学习和预测的目标。德国信用卡数据集中每个样本都有标签字段——信用(creditability)。在建模过程中,通常需要将特征和标签中的文本替换为数值。有了包含特征和标签的样本集,我们就可以构建机器学习模型了。例如,基于德国信用卡数据集构建模型后,对于样本集之外的新客户,我们可以通过20个特征预测新客户的信用等级。
scorecardpy 库是信贷建模时常用的轻量级Python库,其中内置了德国信用卡数据集.获取该数据集部分数据的参考代码如下所示。
import scorecarapy as sc
german_credit_data = sc.germancredit()
print(german_credit_data.iloc[:5,1ist(range(-1,4))])
账龄
账龄(Month on Book,MOB)是指多期信贷产品从首次放款起所经历的月数。类似于人出生后便有了年龄,申贷订单成功放款后,也便拥有了账龄和生命周期。通常用MOBn表示账龄,以月末时间点来看,放款日后经历n个完整的月数,具体如下所示
- MOBO:放款日至当月月底,观察时间点为放款当月月末。
- MOB1:放款后第二个月,观察时间点为第二个月月末。
- MOB2:放款后第三个月,观察时间点为第三个月月末。
依此类推,MOB的最大值取决于信贷产品期限。如果是12期产品,那么该资产的生命周期是12期,MOB最大到MOB12。例如,2020年8月9日放款的订单,8月9日至8月末即为MOB0,9月为MOB1,10月为MOB2。
逾期
逾期的概念有以下4种
- 逾期天数(Days Past Due,DPD):实际还款日与应还款日的相差天数。例如,每月9日为还款日,那么10日为逾期1天,11日为逾期2天。若客户在15日还款,则逾期天数为6,记为DPD6。
- 首期逾期天数(First PaymentDeliquency,FPD):分期产品中第一期实际还款日与应还款日的相差天数。例如,2020年8月9日放款的订单,共12期,第一期还款时间为9月9日,若实际还款时间为9月10日,则首期逾期天数为1,记为FPD1。
- 逾期期数:贷款产品中客户的逾期期数,也指将逾期天数按区间划分后的逾期状态。
- 通常以30天为区间划分,用英文字母M表示,具体如下所示。
- MO:当前未逾期。
- M1:逾期1期,或逾期1-30日。
- M2:逾期2期,或逾期31-60日。
- M3:逾期3期,或逾期61-90日。
依此类推,M3+表示逾期3期以上,或逾期天数为91天及以上,和DPD9O+含义一致。需要注意的是,MO有时也会表示为CO(取单词Current的首字母),表示当前未逾期状态。
逾期率:分为订单逾期率和金额逾期率。订单逾期率是指逾期订单数与总放款订单数的比值。例如,M1逾期率表示逾期1期的订单数与总订单数的比值,DPD30+逾期率表示逾期30天以上的订单数与总订单数的比值。金额逾期率是指逾期金额与总放款金额的比值。
print('每天开心')