分类问题评价标准

分类问题评价标准

1、混淆矩阵

.预测的正类(+,1)预测的负类(-,0)
实际的正类(+,1) f + + T P f_{++}TP f++TP f + − F N f_{+-}FN f+FN(Ⅱ)
实际的负类(-,0) f − + F P f_{-+}FP f+FP(Ⅰ) f − − T N f_{--}TN fTN

以预测的结果看待实际的值
T(True), F(False), P(Positive), N(Negative)

Ⅰ类错误(Type Ⅰ errot):实际为负样本,预测为正样本(FP)
Ⅱ类错误(Type Ⅱ error):实际为正样本,预测为负样本(FN)

2、评价指标

  • 准确率( Accuracy rate)
    A C C = T P + T N T P + F N + F P + T N ACC=\frac{TP+TN}{TP+FN+FP+TN} ACC=TP+FN+FP+TNTP+TN

预测准确的与样本总数的比值

  • 精度( precision)
    p = T P T P + F P p=\frac{TP}{TP+FP} p=TP+FPTP

预测正确的正类与预测为正类的比值

  • 召回率( recall)=真正率(true positive rate TPR)
    r = T P T P + F N r=\frac{TP}{TP+FN} r=TP+FNTP

预测正确的正类与实际为正类的比值

  • F 1 度 量 F_{1}度量 F1
    F 1 = 2 r p r + p F_{1}=\frac{2 r p}{r+p} F1=r+p2rp

F 1 表 示 召 回 率 和 精 度 的 调 和 平 均 数 F_{1}表示召回率和精度的调和平均数 F1

3、ROC曲线及AUC

以FPR(负类召回率)为横坐标,TPR(正类召回率)为纵坐标,通过调整模型预测的阈值可以得到不同的点,将这些点可以连成一条曲线,这条曲线叫做接受者工作特征曲线(Receiver Operating Characteristic Curve,简称ROC曲线)

  • roc曲线是对预测为正样本概率按照从大到小的顺序排序,由上到下设定为阈值,>=阈值预测为正样本(逾期样本,标签设定为1),<=阈值预测为负样本(非逾期用户,标签设定为0),在根据真实标签得出混淆矩阵,计算出TPR,FPR做出图形。

  • FPR(负类召回率)
    F P R = F P F P + T N FPR=\frac{FP}{FP+TN} FPR=FP+TNFP

预测为正类的负样本与实际上所有负样本的比值

  • 真正率(true positive rate TPR)即召回率(recall)
    T P R = T P T P + F N TPR=\frac{TP}{TP+FN} TPR=TP+FNTP

预测正确的正类与实际为正类的比值

ROC曲线如下:
这里写图片描述

  • D点每个样本都被预测为负类
  • C点每个样本都被预测为正类
  • A点为理想模型

显然A点为最优点,ROC曲线越靠近A点代表模型表现越好,曲线下面积(Area Under Curve, AUC)越大,AUC是衡量模型表现好坏的一个重要指标。

4、ks曲线

在这里插入图片描述

http://mt.sohu.com/20160412/n443990141.shtml

http://blog.csdn.net/sinat_26917383/article/details/51725102

http://www.sohu.com/a/132667664_278472

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值