机器学习中的评价指标和应用场景

目录

常见统计量

一般对于一个二分类问题,需要统计预测得到的正负样本的个数和预测成功和失败的样本个数

  • True: 预测正确的样本数
  • False: 预测错误的样本数
  • Positive: 预测为正样本的样本数
  • Negative: 预测为负样本的样本数

组合的统计量

将以上的四个量进行组合得到下面的四个更为常见的四个样本数

-TP: 将正样本预测为正样本的样本数
-FP: 将负样本预测为正样本的样本数
-TN: 将负样本预测为负样本的样本数
-TN: 将负样本预测为负样本的样本数


Precision & Recall & Accuracy

Precision

精确率,在所有预测为正样本的样本(TP+FP)中预测正确(TP)的比例,也就是
Precision=TPTP+FP

Recall

召回率,在所有正样本(TP+FN)中,预测正确(TP)的比例,也就是
Recall=TPTP+FN

Accuracy

准确率,正确分类的样本占所有样本的比例,不适于数据极度不平衡的场景如广告点击率一般在千分之几,
Accuracy=TP+TNTP+TN+FP+FN

F1-measure

F1分数,是综合考虑Precision和Recall得到的一个指标,一般在需要PR都要保证的场景使用,针对一个值的优化更加直观容易衡量
F1=2PRP+R

ROC

TPR

真正类率,即正确分类的正样本占所有正样本的比例
TPR=TPTP+FN

FPR

假正类率,即误分类为正样本占所有负样本的比率
FPR=FPFP+TN

ROC曲线就是当将预测结果分割为正负样本的阈值变化时,以FPR作为x轴,以TPR作为y轴得到的曲线,因为TPR,FPR 都是正类和正类比较,负类和负类比较,所以不受数据不平衡问题的困扰,但是同时也会掩盖这个问题,此曲线和x轴之间的区域面积即使下面要说的AUC的值

AUC

如同PR曲线和F1类似,一个单独的数值有利于对模型的衡量,所以有了AUC,AUC的数值计算需要利用一个等价的结论,AUC等价于任意去正负样本,正样本得分高于负样本得分的概率,基于这个结论可以得到下面的计算方法
【未完待续】


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值