上一章( 损失函数梯度下降实例讲解及其凹凸性证明)我们通过实例演示了逻辑回归损失函数梯度下降的迭代过程,本章将使用逻辑回归算法来构建金融风控中常用的评分卡模型,将对逻辑回归源码进行讲解,并对算法进行改进构建评分卡。
一、什么是评分卡模型
金融反欺诈实时监控模型中较为常见的就是评分卡模型,具有简单高效、解释性强、易于调优等优点,其建模流程大致可分为三步:
第一步,对风险客户离线信息进行溯源分析,归纳总结客户动账、登录等交易风险特征;
第二步,对风险交易特征进行规则提炼,设置相应阈值、分值;
第三步,实时规则上线、调优、迭代等。
评分卡模型规则集合示例如下表所示:
从表中可以看出,评分卡模型将客户命中的规则得分进行求和,当分值高于100分时,判定为高风险;低于100分值时,判定为低风险,评分卡的本质就是逻辑回归二分类模型。
二、逻辑回归源码
由于sklearn中LogisticRegression类的源码有很多的属性和方法我们都用不到,所以在此就不详细的讲解sklearn中逻辑回归源码,有兴趣的可以通过下面链接了解,官方文档英文版,链接:逻辑回归官方文档英文版
逻辑回归的主要方法代码如下:
import numpy as np
import pandas as pd
class LogisticRegression(object):
def __init__(self):
"""
初始化 Logistic Regression 模型
"""
self.coef = None # 权重矩阵
self.intercept = None # 截距
self._theta = None # _theta[0]是intercept,_theta[1:]是coef
def sigmoid(self, x):
"""
sigmoid 函数
:param x: 参数x
:return: 取值y
"""
y = 1.0 / (1.0 + np.exp(-x))
return y
def loss_func(self, theta, x_b, y):
"""
损失函数
:param theta: 当前的权重和截距
:param x_b: 修改过的数据集(第一列为全1)
:param y: 数据集标签
:return:
"""
p_predict = self.sigmoid(x_b.dot(theta))
try:
return -np.sum(y * np.log(p_predict) + (1 - y) * np.log(1 - p_predict))
except:
return float('inf')
def d_loss_func(self, theta, x_b, y):
"""
损失函数的导数
:param theta: 当前的权重和截距
:param x_b: 修改过的数据集(第一列为全1)
:param y: 数据集标签
:return:
"""
out = self.sigmoid(x_b.dot(theta)) # 计算sigmoid函数的输出结果
return x_b.T.dot(out - y) / len(x_b)
def gradient_descent(self, x_b, y, initial_theta, eta, n_iters=1e4, epsilon=1e-8):
"""
梯度下降函数
:param x_b: 修改过的数据集(第一列为全1)
:param y: 数据集标签
:param initial_theta: 初始权重矩阵
:param eta: 学习率
:param n_iters: 最大迭代周期
:param epsilon: 当两次训练损失函数下降小于此值是提前结束训练
:return:
"""
theta = initial_theta
i_iter = 0
while i_iter < n_iters:
gradient = self.d_loss_func(theta, x_b, y)
last_theta = theta
theta = theta - eta * gradient
i_iter += 1
if abs(self.loss_func(theta, x_b