1.1.11. Logistic regression
一、简介:
逻辑回归是一种分类算法,而不是他名称里提到的回归算法。
这里无需纠结,只是单纯的命名问题,甚至sklearn里还提到了他的另外三种名字,不过显然,这都不是重点。
逻辑回归的本质是通过sigmoid函数将线性回归得到的实数域的数据根据需要投影到一定范围内(有时是0~1,有时是-1~1,或者其它的区间)
对于一个两分类的问题,我们假定其中一类是正类,另一类是负类。然后,我们通过线性回归(我们假定了一个样本属于正类的程度与其特征是呈现出一定的线性相关性的,不然那效果肯定不理想,也就是所谓的,选错模型了)去拟合样本属于正类的可能性(程度)。这个程度,是用实数数值表示的。然后我们对程度(实数数值)进行变换(sigmoid函数),得到我们需要的,样本属于正类的可能性(概率)。
二、兼容与推广
我们刚才提到了,逻辑回归的重要性在于,他体现了一种分类转回归的思想:就是用回归模型来预测样本属于某一类的可能性(程度),在转换为概率。
那么首先,对于最基础的线性回归,我们仍然可以在其中引入正则的思想,用来控制模型的稀疏性、稳定性等属性。
其次,不局限于传统线性回归,广义线性回归模型,甚至常用的回归模型,都可以引入此思想,先拟合可能性(程度),再借助sigmoid函数得到概率,最后完成对类别的预测。
三、skearn
唔,逻辑回归和逻辑也没有关系,是音译。它还被称为logit regression,maximum-entropy classification,the log-linear classifier。
它本身只能用于解决二分类,不过可以通过OvR等方式拓展到多分类。skearn里有相应的内置函数(参数),详见官方文档。