信贷评分卡
前言
在业界有几种不同的流派(业界建立逻辑回归)
- 直接用原始变量进行回归(模型粗糙并不能生成评分卡)
- 从原始数据生成0/1的虚拟变量(dummy variable)进行回归(FICO用的较多,已不是主流)
- 从原始数据生成woe(weight of evidence)进行回归
1.逻辑回归原理
1.1 求解方式
预测函数(线性回归模型上加了sigmoid函数): h θ ( x ) = 1 1 + e − θ x 其 中 θ x = θ 0 + θ 1 x 1 + θ 2 x 2 + . . . + θ n x n h_\theta(x)=\frac{1}{1+e^{-\theta x}} \qquad 其中\theta x=\theta _0+\theta _1x_1+\theta _2x_2+...+\theta _nx_n hθ(x)=1+e−θx1其中θx=θ0+θ1x1+θ2x2+...+θnxn
对于二分类:
{ p ( y = 1 ∣ x , θ ) = h θ ( x ) p ( y = 0 ∣ x , θ ) = 1 − h θ ( x ) \begin{cases} p(y=1|x,\theta)=h_\theta(x)\\ p(y=0|x,\theta)=1-h_\theta(x)\\ \end{cases} {
p(y=1∣x,θ)=hθ(x)p(y=0∣x,θ)=1−hθ(x)
将其合并得到:
p ( y ∣ x , θ ) = h θ ( x ) y ( 1 − h θ ( x ) ) ( 1 − y ) p(y|x,\theta)=h_\theta(x)^y(1-h_\theta(x))^{(1-y)} p(y∣x,θ)=hθ(x)y(1−hθ(x))(1−y)
利用极大似然估计得到(MLE):
L ( θ ) = ∏ i = 1 n p ( y i ∣ x i , θ ) = ∏ i = 1 n h θ ( x i ) y i ( 1 − h θ ( x i ) ) ( 1 − y i ) L_{(\theta)}=\prod_{i=1}^np(y_i|x_i,\theta)=\prod_{i=1}^nh_\theta(x_i)^{y_i}(1-h_\theta(x_i))^{(1-y_i)} L(θ)=i=1∏np(yi∣xi,θ)=i=1∏nhθ(xi)yi(1−hθ(xi))(1−yi