原文链接:【深度学习】常用的模型评估指标 - Madcola - 博客园
前提:混淆矩阵
其中T代表预测正确与否,P代表预测的类别是positive(正例)还是negtive(负例)。因此有:
TP+FP+FN+TN = 总样本数。
注: TP: 预测为正例且预测正确的样本数
1. accuracy
acc = 预测正确的样本数 / 总样本数
= (TP + TN)/ (TP + TN + FP + FN)
优点:
1.几何意义清晰,且易于计算
缺点:
1. 当类别不均衡时,指标是不可信的
2. Precision(查准率)
p = 预测为正例且正确的样本数 / 总预测为正例样本数
= TP / (TP + FP)
表示含义:总的预测为正的样本中,有多少是预测正确的
特点:
专注于判断对预测结果的置信度。
3. Recall(查全率)
r = 预测为正例且正确的样本数 / 所有正例样本数
= TP / (TP + FN)
表示含义:在所有正例样本中,召回了多少正例样本
特点:
专注于判断对某个类别进行预测的置信度(是否能够全面地预测出属于该类别的样本)
4. PRC:
绘制曲线,其中横坐标Recall, 纵坐标为Precision。
特点:
1. 对样本不均衡问题不敏感
2. A完全包含C,证明A比C模型的效果要好。但是A与B之间有交叉,因此无法直接评判两模型的性能优劣。
注: --> 为了度量A与B交叉这种情况,可通过计算A与B的面积进行比较;除此之外,还可以使用BPE(p=r时平衡点的取值)来进行性能比较。
5. F1-score:
相对于BPE,更综合的考虑P和R:
有macro f1: 不加权的和 micro f1: 加权的等等不同的f1-score
特点:
1. 适用于类别不均衡问题,能更综合地考虑P和R
6.ROC和AUC
ROC曲线:横坐标为FPR,纵坐标为TPR
注:FPR:在所有负例样本中,预测正确的样本数
TPR:在所有正例样本中,预测正确的样本数
FPR = FP / (FP + TN)
TPR = TP / (TP + FN)
其中曲线表示不同threshold下的FPR和TPR的变化情况。因此当 FPR = TPR时即为最佳阈值(也可以根据具体任务选择最佳阈值)
同理:当两条曲线交叉时,可以选择曲线下面积AUC来作为衡量两模型性能的指标。
特点:
解决类别不平衡问题,同时能够找到最佳阈值(二分类)
7. 拓展:IOU
注: 应用于目标检测领域的评价指标:交并比