![369d2ef557497874c6b74e53615d1a39.png](https://i-blog.csdnimg.cn/blog_migrate/5cb7dcd3896c92c9b44e0ae1bfc81ed8.jpeg)
风控业务背景
逻辑回归(Logistic Regression,LR)是建立信贷金融评分卡的重要模型,其具有形式简单、易于解释、鲁棒性强等优点。然而,很多建模同学并不是很清楚其原理。本文尝试对逻辑回归基础加以分析理解。
目录
Part 1. 从线性回归到逻辑回归
Part 2. 为什么采用sigmoid函数
Part 3. 利用极大似然估计法估计参数
Part 4. 最优化问题求解之梯度下降法
Part 5. 正则项的作用和种类
Part 6. 总结
致谢
版权声明
参考资料
符号定义:
-
: 样本集,具有
个样例
-
:标签集,具有
个样例
-
: 第
个样例的特征向量,具有
维特征
-
:第
个样例的类别标识,二分类问题
-
:样本集,维度为
-
:权重向量,与n维特征一一对应
Part 1. 从线性回归到逻辑回归
线性模型是指对各种属性进行线性加权组合的函数:
这一过程将信息进行整合;不同的权重(weight)反映了自变量对因变量不同的贡献程度 。
线性回归(Liner Regression)具有广泛应用,例如:预测房价、天气等等。
![061fb9ce8bb7248edeadb8d085157b07.png](https://i-blog.csdnimg.cn/blog_migrate/518335df323779cde4f1a3f41b9e0f99.jpeg)
但在实际应用中,很多人会忽略线性回归的几大假设:
- 零均值假设:随机误差项均值为0。
- 同方差假设:随机误差项方差相同。若满足这一特性,称模型具有同方差性
- 无自相关假设:若不满足这一特性,称模型具有自相关性(Autocorrelation)。
- ...
显然,线性回归的输出结果
我们采用一个
其函数图像如图2所示,直观感受其优美的姿态,对称、平滑,且输出
![0b05bf7a8848b18bce6c0576429c6997.png](https://i-blog.csdnimg.cn/blog_migrate/8b95186d1d47857ce9666757fd88c78a.jpeg)
我们尝试把
![116b0d3ed14b753aa623490755a515c5.png](https://i-blog.csdnimg.cn/blog_migrate/083e15304bd00834b988f2ad0880b76f.jpeg)
把图3用公式表达,也就是在
我们再将其变换得到逻辑回归的另一种常见形式:
为什么要这样做呢?这是因为右边就是线性回归,而左边则引入了
显然可以得到正负样例的概率表达式:
Part 2. 为什么采用sigmoid函数
至此,你可能会有疑问:为什么这里就直接选择了
如果只是为了将输出结果从