Logistic回归模型是一般线性回归模型的改进,一般线性回归模型中,假定 y ∼ N ( μ , σ 2 ) y \sim N(\mu , \sigma^2) y∼N(μ,σ2)。当反应变量 y y y是二分类或0—1变量时,此时 y y y是服从Bernoulli分布(也称0-1分布或两点分布)的随机变量,即 y ∼ B ( n , p ) y \sim B(n, p) y∼B(n,p)。
Logistic回归函数是 y y y 值限制在[0, 1]区间内的连续函数,应用较多的是Logistic函数(也称Logit变换),其形式为:
Logistic回归模型的本质就是对数线性回归模型
Logistic回归模型的参数估计方法
1、极大似然估计(最常用),用Newton-Raphson迭代求解,在一些情况下,Newton-Raphson迭代的收敛性不好,可改用Marquardt改进的Newton-Raphson迭代法求解;
2、根据广义线性模型的理论用加权最小二乘法迭代求解
两种方法求出的结果基本相同
Logistic回归模型的参数检验
Fisher信息阵
过拟合和欠拟合
1、过拟合
就是训练出的模型可以很好的适应所有的训练样本,但是对测试样本不能很好的预测,即模型在训练集上学习了过多的规则,而这种规则并不是一种普适的规则,从而导致模型的外推能力或泛化能力下降。
2、欠拟合
是指模型在训练集上学习到较少的规则,在训练集与测试集上的表现均不理想。
Logistic Regression(LR)如何处理过拟合问题?
解决过拟合的方法有两个
(1)降维
使用PCA降维,使得模型变量个数减少,次数也降低。
(2)增加正则化项
对LR添加L1正则项或者L2正则项,L1正则化会导致参数值变为0,但是L2却只会使得参数值减小,这是因为L1的导数是固定的,参数值每次的改变量是固定的,而L2会由于自己变小改变量也变小。
评分卡模型为什么要选择使用Logistic回归模型?
1、可以输出概率;
2、可解释性好;
3、模型参数少。
sigmoid函数
s
i
g
m
o
i
d
(
x
)
=
1
1
+
e
−
x
sigmoid(x) = \frac{1}{1+e^{-x}}
sigmoid(x)=1+e−x1
运用sigmoid函数将概率值转化为分类标签,即概率大于等于0.5被判断为正例,小于0.5被判断为负例
线上信贷场景为什么要使用评分卡模型?
1、对于策略无法有效识别的大量灰色客群,需要使用评分卡进行风险判断;
2、随着线上信贷场景的扩展,业务量的快速增加,业务逐渐变得复杂,策略规则已经无法满足更细的切分需求