是新朋友吗?记得先点蓝字关注我哦~
作者介绍
知乎@王多鱼
京东的一名推荐算法攻城狮。
主要负责商品推荐的召回和排序模型的优化工作。
一、逻辑回归简介
逻辑回归又称Logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘、疾病自动诊断、经济预测等领域。逻辑回归从本质来说属于二分类问题。
二分类问题是指预测的y值只有两个取值(0或1)。例如:一个垃圾邮件过滤系统,x是邮件的特征,预测的y值就是邮件的类别(是垃圾邮件还是正常邮件)。对于类别我们通常称为正类(positive class)和负类(negative class),在该例子中,正类就是正常邮件,负类就是垃圾邮件。
二、为什么要用逻辑回归
我们都知道线性回归,它研究的是因变量(目标)和自变量(预测器)之间的关系。通常使用曲线或直线来拟合数据点,目标是使曲线到数据点的距离差异最小。线性回归表达式:
既然已经有了线性回归模型,我们为什么还要使用Logistic回归。如下图所示:在线性回归中一般使用0.5作为阈值来判断正例和负例的依据。但是在下图(b)中,如果继续使用0.5作为阈值就不合适了,会导致错误的样本分类。
图1 线性回归在二分类中的应用
Logistic回归使用Sigmoid函数将预测值映射为(0, 1)上的概率值,帮助判断结果。如下图所示: