概述
模型
线性判别分析方法,Sir Ronald Fisher最早提出模型评分的概念。
个人FICO模型信用分。
巴塞尔委员会发布巴塞尔Ⅱ协议,推出内部评级法(Internal Rating Based Approach,IRB)。IRB综合考虑客户评级和债项评级,通过违约概率(Probability of Default, PD)、违约损失率(Loss Given Default, LGD)、违约风险暴露(Exposure At Default, EAD)以及有效期限(Maturity, M)四个风险要素计算信用风险加权资产。
按照信贷生命周期划分,有四种应用最为广泛的模型:
- A卡:申请(Application)模型,贷前,审批与额度
- B卡:行为(Behavior)模型,贷中,还款
- C卡:催收(Collection)模型,贷后,催收
- F卡:反欺诈(Fraud)模型,全流程,反欺诈。
算法
模型和算法是两个概念:
- 算法是一系列针对特定问题或任务的计算步骤或指令。它是一种具体的计算过程,用于处理数据并生成有用的结果。
- 模型是通过算法在特定数据集上训练得到的结果或表示。它是对数据的一种抽象和概括,用于预测或推断新的数据样本。模型可以采用数学方程、统计分布、决策规则等形式,它的目标是对未知数据进行预测或分类。
逻辑回归算法
逻辑回归(Logistic Regression, LR)算法:一种经典的二分类算法,可用于预测客户的违约概率。它通过估计一个线性回归方程并将结果映射到一个概率值(0到1之间)来预测违约概率。
两个变量之间存在线性关系,也叫一次函数关系,映射到直角坐标系中是一条直线。公式: y = b 0 + b 1 ∗ x 1 + b 2 ∗ x 2 + e y=b_0+b_1*x_1+b_2*x_2+e y=b0+b1∗x1+b2∗x2+e就描述一种线性关系。
该公式由四部分组成:
- x x x:自变量或预测变量,可以是原始变量、转换变量或虚拟变量;
- b b b:回归系数或参数估计,相当于变量的权重。虚拟变量的系数表示其相对重要性;
- y y y:因变量、目标变量或响应变量,与结果有关。通常0代表坏,1代表好,这样最终分数越高代表信用质量越好;
- e e e:残差或误差,是模型无法解释的部分,通常可以忽略
线性关系是研究n个变量之间关系的函数,回归系数可以解释一个模型中预测变量与目标变量之间的关系,也是研究多个变量之间的关系,更具体地说是研究因变量和自变量之间的关系。根据是否违约,可以将信用评估结果划分为0和1两类。一般情况下,0表示未违约,1表示违约。由于线性回归会有多个输出值,无法进行直接分类,因此LR通过一个单位阶跃函数将线性回归函数输出结果映射到0或1,最终成为逻辑回归函数。逻辑回归算法通过把y的结果带入一个非线性变换的Sigmoid函数中,将结果映射到0到1之间的概率值,进而预测客户未来的违约概率,即 g ( y ) = 1 1