记得刚工作的时候,用的第一个模型就是逻辑回归。虽然从大二就参加了全国大学生数学建模比赛,直到研究生一直在参加数学建模,也获了大大小小一些奖。但是这些都是纸上谈兵,只要结果好、程序高级、图文美观,就能得到评审老师的青睐。和实际模型上线,真金白银实战还是有很大的区别。
逻辑回归已经在各大银行和公司都实际运用于业务,已经有很多前辈写过逻辑回归。本文将从我实际应用的角度阐述逻辑回归的由来,致力于让逻辑回归变得清晰、易懂。逻辑回归又叫对数几率回归,是一种广义线性回归分析模型。虽然名字里有回归,但其实是分类模型,常用于二分类。
这篇文章是逻辑回归三部曲中的第一部,介绍逻辑回归的由来和为什么会使用sigmod函数。如果觉得看起来有难度也可以先看逻辑回归原理一文,再回过头来看这篇文章。
文章目录
接下来将从广义线性模型、指数分布族、伯努利分布阐释逻辑回归和sigmod函数的由来。
一、广义线性模型(GLM)
由于线性回归往往用来预测连续值,但是受限于其连续性的特征,对于分类问题往往效果不好。且线性模型的值域为(-∞,∞),对于某些现实问题可能出现无意义的情况。比如某店铺用线性回归模型做预测:温度每上升10摄氏度,购买毛衣的人数会下降100人。现在的温度为5摄氏度,购买毛衣的人数为80人。按此模型预测,当温度为15度时,购买毛衣的人数为-20人。显然人数不可能为负数,该模型的预测结果有违常识。
但是线性回归有“模型简单且效果还可以”的特点,为了保留该特点