文章目录
准确率 (Accuracy)
分类正确的样本数除以所有的样本数 ,即:
准确(分类)率=正确预测的正反例数 / 总数
错误率(error rate)
错误率则与正确率相反,描述被分类器错分的比例,即:
误分类率=错误预测的正反例数/总数 = 1 - 准确(分类)率
准确率一般用来评估模型的全局准确程度,不能包含太多信息,全面评价一个模型,其中混淆矩阵是一个常用的手段。
当样本不均衡是,如正样本10,负样本990,这时即使模型把1000个样本全部预测为负样本,准确率(Accuracy)也有99%,这显然是有问题的。这里可以考虑用其他指标二分类混淆矩阵。
二分类混淆矩阵
分类目标只有两类,计为正例(positive)和负(negtive):
True positives(TP)
被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实例数(样本数);
False positives(FP)
被错误地划分为正例的个数,即实际为负例但被分类器划分为正例的实例数;
False negatives(FN)
被错误地划分为负例的个数,即实际为正例但被分类器划分为负例的实例数;
True negatives(TN)
被正确地划分为负例的个数,即实际为负例且被分类器划分为负例的实例数。
召回率(recall)
又被称为查全率,预测为正例(positive)的样本中正确的数量除以真正的Positive的数量,即:
Recall= TP / (TP+FN) = TP / P
精确率(Precision)
又被称为查准率,被分为正例的示例中实际为正例的比例,即:
Precision=TP/(TP+FP)
在多分类中如最后经过一个softmax层得到的是某个概率最大值,然而对于二分类,往往把模型预测为某个对象的概率从高到低排序,并且和真实标签对应。这时我们会设置某个阈值,大于这个阈值的分为正样本,反之为负样本。选取不同阈值时对应的精度和召回画出来的阈值不同,得到的指标是不一样的。这时我们可以画P-R曲线。
P-R曲线
总体趋势,精度越高,召回越低,当召回达到1时,对应概率分数最低的正样本,这个时候正样本数量除以所有大于等于该阈值的样本数量就是最低的精度值。曲线越靠近右上角效果越好。
平均精度(Average-Precision,AP):
P-R曲线围起来的面积,通常来说一个越好的分类器,AP值越高。
平均精度均值(Mean Average Precision,mAP):
mAP即是把每个类别的AP都单独拿出来,然后计算所有类别AP的平均值,代表着对检测到的目标平均精度的一个综合度量。
IOU(Intersection Over Union)
评价一个检测算法时,主要看两个指标,即是否正确的预测了框内物体的类别;预测的框和人工标注框的重合程度。IOU用来衡量预测的物体框和真实框的重合程度。
IOU = (GT ∩ DR) / (GT ∪ DR)