风控业务背景
逻辑回归(Logistic Regression,LR)是建立信贷金融评分卡的重要模型,其具有形式简单、易于解释、鲁棒性强等优点。然而,很多建模同学并不是很清楚其原理。本文尝试对逻辑回归基础加以分析理解。
目录
Part 1. 从线性回归到逻辑回归
Part 2. 为什么采用sigmoid函数
Part 3. 利用极大似然估计法估计参数
Part 4. 最优化问题求解之梯度下降法
Part 5. 正则项的作用和种类
Part 6. 总结
致谢
版权声明
参考资料
符号定义:
-
: 样本集,具有个样例
-
:标签集,具有个样例
-
: 第个样例的特征向量,具有维特征
-
:第个样例的类别标识,二分类问题
-
:样本集,维度为
-
:权重向量,与n维特征一一对应
Part 1. 从线性回归到逻辑回归
线性模型是指对各种属性进行线性加权组合的函数:
这一过程将信息进行整合;不同的权重(weight)反映了自变量对因变量不同的贡献程度 。
线性回归(Liner Regression)具有广泛应用,例如:预测房价、天气等等。
但在实际应用中,很多人会忽略线性回归的几大假设:
- 零均值假设:随机误差项均值为0。
- 同方差假设:随机误差项方差相同。若满足这一特性,称模型具有同方差性
- 无自相关假设:若不满足这一特性,称模型具有自相关性(Autocorrelation)。
- ...
显然,线性回归的输出结果
我们采用一个
其函数图像如图2所示,直观感受其优美的姿态,对称、平滑,且输出
我们尝试把
把图3用公式表达,也就是在
我们再将其变换得到逻辑回归的另一种常见形式:
为什么要这样做呢?这是因为右边就是线性回归,而左边则引入了
显然可以得到正负样例的概率表达式:
Part 2. 为什么采用sigmoid函数
至此,你可能会有疑问:为什么这里就直接选择了
如果只是为了将输出结果从
若预测值
你可能会说,这个阶跃函数不可微,也无法像
- 为什么这个映射函数一定要求可微?
- 为什么
函数输出值可以代表概率?
首先,我们先分析
- 定义域:
- 值域:
- 函数在定义域内为连续和光滑函数
- 处处可导,导数为
,以下是推导过程:
可以看到,
探索的脚步继续前进 ...
由于逻辑回归本质上属于线性模型,我们尝试从广义线性模型(Generalized Linear Model,GLM)角度入手解释。前文提到,线性回归存在诸多假设,实际应用中往往无法满足。这就会有以下问题:
-
的取值范围与某些场景矛盾。例如,要求。假设一个线性回归模型预测当温度下降10摄氏度,沙滩上的游客将减少1000人。那么,如果当前20摄氏度时,沙滩上只有50人,按此模型预测,当温度为10摄氏度时,沙滩上便有-950人。这显然不符合常理,因为人数不能为负数。
- 残差
服从正态分布,且要求方差是常数。但有时,均值越大,我们越预测不准确(方差越大)。
为了解决这些局限性,后人发展了GLM,用以提高线性模型的普适性。
In statistics, the generalized linear model (GLM) is a flexible generalization of ordinary linear regression that allows for response variables that have error distribution models other than a normal distribution. (摘自维基百科)
GLM允许因变量的分布并不一定要服从正态分布,而可以服从其它分布。
广义线性模型GLM由三要素组成,即:
- 概率分布(Probability distribution):指因变量
的分布假设,来自指数分布族。
- 线性预测(Linear predictor):自变量的线性组合,即
- 链接函数(Link function):通过均值
来链接前两者,即
首先分析概率分布。对于只有单个参数
其中,
- 线性回归假设
的残差服从正态分布
- 逻辑回归假设
服从伯努利分布(Bernoulli)
接下来,我们尝试:
- 将逻辑回归因变量
变换到式的形式,确定以上几个函数,验证其属于指数分布族。
- 求解出逻辑回归对应的链接函数。注意,此时我们还没有认可sigmoid函数。⚠️
由于逻辑回归假设
对比式
这说明伯努利分布也是指数分布族(exponential family)的成员。按GLM的第二要素定义:
我们再计算
按类似方法,我们可以推导出各分布函数及其链接函数,如图5所示。
从广义线性模型角度,我们确实推导出
上文提到,逻辑回归中因变量
Part 3. 利用极大似然估计法估计参数
在模型参数估计问题上,两大主流学派持有不同观点:
- 频率主义学派(Frequentist):认为参数虽然未知,但却是客观存在的固定值。因此,可通过优化似然函数等准则估计参数值。
- 贝叶斯学派(Bayesian):认为参数是未观察到的随机变量,其本身也可有分布。因此,可假定参数服从一个先验分布,再基于观察到的数据来计算参数的后验分布。
极大似然估计法(Maximum Likelihood Estimation,MLE)属于频率主义学派方法,其蕴含的朴素思想在于:
我们已经确定了一个模型种类
由于一组样本中的所有样例是一个整体,因此我们将各样例的概率相乘(排列组合中的乘法原理)来得到我们的目标函数。
我们把第
现在,我们有观测样本
其中,样例
-
时,
-
时,
为便于求解,将连乘
我们的优化目标是:
认真考虑后,我们发现并没有其他约束项。(事实上,这里将蕴含正则项的思想)
接下来,我们将进入最优化理论的求解范畴。
Part 4. 最优化问题求解之梯度下降法
在最优化问题求解上,我们一般可分为两种:
- 解析解:通过严格的公式推导,所求得的解。
例如,一元二次方程
- 数值解:采用某种计算方法,如数值逼近、插值等方法,得到的解。如图7所示。
当然,能得到解析解自然是最好的,但在很多场景下我们无法精确计算,只能利用计算机模拟来近似计算,也就是数值解。
在式
如图8所示,我们可以直观理解为,如果随着最陡的方向下山,那就会更快到达山谷。
那这个"陡"在数学上是如何衡量的呢?答案就是导数,导数方向上,函数值变化最快。
对于多元函数
偏导数是指先固定其他维度当作常数,只计算某一维度上的导数。如图9所示,对于所处位置点
- 在
轴方向上,固定,即,则导数为.
- 在
轴方向上,固定,即,则导数为.
图9所示二元函数的梯度可以定义为:
下山的方向已经找到了,但还有一个问题是,我们的步子(step)迈多大?
如图10所示,步长过大或过小都会产生一些问题。因此,在不同阶段能够自动调整步长,可以更好地保证收敛。
为简便起见,我们暂且忽略这个问题,假设步长
回到式
我们不断重复这一过程:达到某个点
那么,这个迭代过程何时才能停止呢?一般满足以下任意条件即可:
- 达到迭代次数上限:
- 学习曲线变化很小:
小于阈值。
Part 5. 正则项的作用和种类
在机器学习模型训练(也就是参数估计)时,我们常会遇到过拟合和欠拟合现象,如图11所示。那我们有没有办法来解决过拟合呢?
对于参数:
正则化一般会采用以下2种范数:
从图12可见,
接下来分析下引入正则项后,目标损失函数的变化情况,也就是前文所说的约束项。
1. LASSO回归
此时加入
此时,式
取对数
2. Ridge 回归
此时加入
此时,式
取对数
Part 6. 总结
本文的思维导图为:
下一篇,我们将尝试探索:样本权重对逻辑回归的影响,包括权重系数、模型性能等。
致谢
感谢参考资料的作者带给我的启发。本文尚有理解不当之处,欢迎批评指正。
版权声明
欢迎转载分享,请在文章中注明作者和原文链接,感谢您对知识的尊重和对本文的肯定。
原文作者:求是汪在路上(知乎ID)
原文链接: https:// zhuanlan.zhihu.com/p/11 1260930/
⚠️著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处,侵权转载将追究相关责任。
参考资料
CSDN-专业IT技术社区-登录blog.csdn.net 如何通俗地理解概率论中的「极大似然估计法」?www.zhihu.com关于作者:
在某互联网金融公司从事风控建模、反欺诈、数据挖掘等方面工作,目前致力于将实践经验固化分享,量化成长轨迹。欢迎交流