信用评分模型详解(上)之 评分卡模型
信用评分模型详解(下)之 信用评分系统搭建
介绍完分箱算法后,就不得不介绍一下评分卡模型了。评分卡模型由于在业务层面具有良好的解释性,在数据挖掘方面(如风控)仍深受欢迎。
前提假设
目前,主流的评分卡模型仍以逻辑回归模型为主要模型。假设客户违约的概率为 p p p,则正常的概率为 1 − p 1-p 1−p。由此可以得到违约几率:
O d d s = p 1 − p Odds = \frac{p} {1-p} Odds=1−pp
此时,客户的违约概率 p p p可以表示为:
p = O d d s 1 + O d d s p = \frac{Odds}{1+Odds} p=1+OddsOdds
评分卡设定的分值刻度可以通过将分值表示为几率对数的线性表达式来定义,即:
S c o r e = A ± B ∗ l o g ( O d d s ) Score = A \pm B*log(Odds) Score=A±B∗log(Odds)
其中,A和B都是常数且(a>=0, b>=0)。当希望违约几率越低,得分越高时,取负号。通常情况下,这是分值的理想变动方向,即高分值代表低风险,低分值代表高风险。 所以,后面均讨论这种情况。
逻辑回归模型
对于逻辑回归模型,其目标函数为:
p = h θ ( x ) = g ( x ) = 1 1 + e ( − θ T X ) p = h_\theta(x) = g(x) = \frac{1}{1+e^{(-\theta^TX)}} p=hθ(x)=g(x)=1+e(−θTX)1
则计算几率的表达式如下:
l n ( O d d s ) = l n ( p 1 − p ) = θ 0 + θ 1 ∗ x 1 + . . . + θ n ∗ x n ln(Odds) = ln(\frac{p}{1-p}) = \theta_0 + \theta_1*x_1 + ...+ \theta_n*x_n ln(Odds)=ln(1−pp)=θ0+θ1∗x1+...+θn∗xn
其中,模型参数 θ 0 , θ 1 , . . . , θ n \theta_0, \theta_1, ..., \theta_n θ