spark mllib源码分析之二分类逻辑回归的评价指标

在逻辑回归分类中,我们评价分类器好坏的主要指标有精准率(precision),召回率(recall),F-measure,AUC等,其中最常用的是AUC,它可以综合评价分类器性能,其他的指标主要偏重一些方面。我们介绍下spark中实现的这些评价指标,便于使用spark训练模型后,对训练结果进行评估。

1. 评价指标##

1.1. 混淆矩阵###

混淆矩阵(confusion matrix)用一张简单的表格,反应分类器对样本分类的情况

实际\预测 1 0
1 TP(True Positive) FN(Flase Negtive)
0 FP(False Positive) TN(True Negtive)

0/1代表两类样本,下面解释下表格中的含义

  • TP:真阳性,预测是1,实际也是1
  • FP:假阳性,预测是1,实际是0
  • TN:真阴性,预测是0,实际也是0
  • FN:假阴性,预测是0,实际是1

不难看出,这个矩阵一条对角线上带T的是预测正确的样本(数量),另外一条对角线上带F的是预测错误的样本。

1.2. 基础指标

由这个矩阵,我们可以计算一系列衡量分类器性能的指标

  • 准确率(Accuracy Rate)

( T P + T N ) / ( T P + F P + T N + F N ) (TP+TN)/(TP+FP+TN+FN) (TP+TN)/(TP+FP+TN+FN)
分类器分对的样本在总样本中的比例

  • 精准度(Precision)

T P / ( T P + F P ) ⋯ ( 1 ) TP/(TP+FP)\cdots(1) TP/(TP+FP)(1)
真正的正样本在分类器分出的正样本中的比例

  • 召回率(Recall)

T P / ( T P + F N ) ⋯ ( 2 ) TP/(TP+FN)\cdots(2) TP/(TP+FN)(2)
样本中正例被正确分类的比例

  • TPR(True Positive Rate),同召回率
  • FPR(False Positive Rate)

F P / ( F P + T N ) ⋯ ( 3 ) FP/(FP+TN)\cdots(3) FP/(FP+TN)(3)
被错误分成正例的样本在实际负例样本中的比例

1.3. F-measure

也称F-score,综合考虑precision和recall,经常用在信息检索中

F β = (

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值