前言:本文实际为阅读众多LR相关资料总结而成,其中几个讲解得比较好的:
在机器学习实战的逻辑斯蒂回归中我们有讲到,logistic模型就是使用sigmoid函数拟合条件概率,具体地:
此前,我的主要理解仅限于sigmoid函数及其函数图像形式。但是为什么使用这个函数来拟合自变量和因变量之间的关系呢?
一.线性回归模型LRM
线性回归模型常用于定量分析中,其限制在于对因变量未做任何限制,这也就引入了假设--因变量y必须在负无穷正无穷之间变化。这就限制了线性回归模型的使用场景---不适用于因变量为分类变量的情况;不适用于因为量在有限区间取值的情况。
对于二分类问题,假设使用线性回归方程:
则其条件期望为:
又由于y只能取值0和1,所以条件期望又等于:
正因如此,因变量为二分类的线性回归模型又称为线性概率模型(Linear Probability Model, 缩写LPM)。
显然,概率取值范围[0, 1],线性模型不能拟合这种非线性关系,如下图: