Logistic Regression现在多翻译成逻辑回归算法,但在西瓜书中翻译为对数几率回归算法,还有就是最有意思就是它的名字具有很大的迷惑性,该算法是个名副其实的分类算法,而不是回归算法。
何谓分类,何谓回归呢?
分类方法是一种对离散型随机变量建模或预测的监督学习算法。使用案例包括邮件过滤、金融欺诈和预测雇员异动等输出为类别的任务。
回归方法是一种对数值型连续随机变量进行预测和建模的监督学习算法。使用案例一般包括房价预测、股票走势或测试成绩等连续变化的案例。
Logistic Regression算法描述
输入数据(二分类为例):
具体流程
上面式子给出了单个样本时的情况,当在训练集有n个时,又该怎样表示呢?下面式子给出了答案,用最大似然估计,即寻找一组参数,使得给定样本的观测值概率最大,由于对数函数是单调递增函数,上述概率最大等价于令其对数最大化,由于取对数之后,其值均为负数,所以求负对数似然函数,得到下式
算法实现
在sklearn官网上有对应的API可以具体实现,具体参数如下图所示。
参考:http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html