什么是逻辑回归
逻辑回归(Logistic Regression)是机器学习中的⼀种分类模型,由于算法的简单和⾼效,在实际中应⽤⾮常⼴泛。逻辑回归就是解决⼆分类问题的利器,例如广告点击率、是否为垃圾邮件、是否患病、金融诈骗和虚假账号。
为什么用逻辑回归
逻辑回归有着以下几个优点:
- 易于实现和解释;
- 对于线性可分数据集,可以得出较高的分类准确率;
- 可以采用随机梯度下降等算法处理大规模数据集;
- 能通过L1正则化选择特征;
- 能与其他算法进行组合,如决策树、随机森林。
逻辑回归原理
输入
逻辑回归的输入是一个线性回归的结果,输入函数如下:
输出
逻辑回归的输出是通过一个激活函数达到分类的效果,激活函数为sigmoid函数,公式如下:
- 回归的结果输⼊到sigmoid函数当中
- 输出结果:[0, 1]区间中的⼀个概率值,默认为0.5为阈值
逻辑回归最终的分类是通过属于某个类别的概率值来判断是否属于某个类别,并且这个类别默认标记为1(正例),另外的⼀个类别会标记为0(反例)。(⽅便损失计算)对于概率值大于阈值,分为正例,小于阈值则分为反例。当然阈值也是可以调整的。
损失函数
线性回归中的损失函数采用均方误差来衡量,而逻辑回归中采用对数似然函数来衡量。
y为真实值,函数值为预测值。根据以上公式,我们希望损失函数越小越好。
当y=1时,我们希望预测值越⼤越好;
当y=0时,我们希望预测值越⼩越好。
所以完整的损失函数如下:
而逻辑回归的优化就是提升正例1的数量,降低反例0的数量。