机器学习分类器的评价指标--混淆矩阵,F1-score,ROC曲线,AUC,KS曲线

本文详细介绍了机器学习分类器的评估指标,包括混淆矩阵、F1-score、ROC曲线和AUC。混淆矩阵用于计算查全率、查准率、准确率和阴性预测值。F1-score是查准率和查全率的调和平均数,可以平衡两者的重要性。ROC曲线展示了不同截断点下分类器的表现,AUC为其曲线下面积,表示分类器区分正负样本的能力。KS曲线则用于确定最佳截断点,最大间隔距离即为KS值,反映了模型区分正负样本的准确性。
摘要由CSDN通过智能技术生成

1. 混淆矩阵---确定截断点后,评价学习器性能

TP(实际为正预测为正),FP(实际为负但预测为正),FN(实际为正但预测为负),TN(实际为负预测为负)

通过混淆矩阵我们可以给出各指标的值:

查全率(召回率,Recall):样本中的正例有多少被预测准确了,衡量的是查全率,预测对的正例数占真正的正例数的比率:

查全率 = TP / (TP+FN)

查准率(精准率,Precision):针对预测结果而言,预测为正的样本有多少是真正的正样本,衡量的是查准率,预测正确的正例数占预测为正例总量的比率:

查准率 = TP / (TP+FP)

准确率(Accuracy):反映分类器对整个样本的判定能力,能将正的判定为正,负的判定为负的能力,计算公式:

Accuracy=(TP+TN) / (TP+FP+FN+TN)

阴性预测值:可以理解为负样本的查准率,阴性预测值被预测准确的比例,计算公式:

NPV=正确预测到的负例数/实际负例总数=TN / (TN+FN)

如果为多分类,也可以通过混淆矩阵得到上述指标的具体值。

查准率和查全率通常是一对矛盾的度量,通常一个高,另外一个就低。通常只有在一些简单任务中,才可能使查准率和查全率都很高。两个指标都很重要,我们应该根据实际情况综合考虑这两个指标。会有一个查准率=查全率的“平衡点”(BEP),过了这个点,查全率将增加,查准率将降低。

查准率-查全率曲线,即P-R曲线

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值