应用的场景: 广告的点击率 , 是否为垃圾邮件, 是否患病等
从应用场景来看 逻辑回归解决的就是二分类的问题
-
原理
输入值:线性回归的输出
激活函数: sigmoid函数
判断的标准:
-
回归的结果输入到sigmoid函数中
-
输出结果:[0,1]区间中的一个概率值,默认为0.5为阈值
-
损失
线性回归 逻辑回归 最小二乘法 对数似然 分开类别:
其中y为真实值,hθ(x)为预测值
单个式子我们要根据log的函数图像来理解
1.当y = 1时,我们希望hθ(x)值越大越好
2.当y = 0时,我们希望hθ(x)值越小越好
3.综合完整损失函数
从上面的图例我们可以知道知道,log§, P值越大,结果越小,所以我们可以对着这个损失的式子去分析
3.优化
提升属于1的概率,降低0的概率
4.ROC曲线和AUC指标
-
TPR = TP / (TP + FN)
- 所有真实类别为1的样本中,预测类别为1的比例
-
FPR = FP / (FP + TN)
- 所有真实类别为0的样本中,预测类别为1的比例
-
ROC曲线
-
ROC的曲线面积就是AUC的值
-
该曲线的横轴就是FPRate(伪正例),纵轴就是TPRate(真正例),如下图,当二者相等时,则表示,对于不论真实类别是1或者0的样本,分类器预测为1的概率是相等的,此时AUC为0.5
-
-
AUC指标
- AUC的概率意义是随机取一对正负样本,正样本得分大于负样本得分的概率
- AUC的范围在[0, 1]之间,并且越接近1越好,越接近0.5属于乱猜
- AUC=1,完美分类器,采用这个预测模型时,不管设定什么阈值都能得出完美预测。绝大多数预测的场合,不存在完美分类器。
- 0.5<AUC<1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。
- 优点:
- AUC非常适合样本不平衡的分类器性能
- 缺点:
- 只能用来评价二分类样本