YOLO 模型的评估指标——IOU、Precision、Recall、F1-score、AP、mAP、

最新推荐文章于 2024-10-15 16:18:08 发布

勤奋的紫包菜

最新推荐文章于 2024-10-15 16:18:08 发布

阅读量2.5k

点赞数 46

文章标签：人工智能机器学习计算机视觉 YOLO

本文链接：https://blog.csdn.net/m0_73731663/article/details/139597427

版权

置信度用于评估模型对检测结果的信心程度

下图中，绿色框A表示Ground Truth，也称GT，GT就是正确的标注（人工）

iou：表示预测的边界框（或分割区域）与真实边界框（或分割区域）之间的交集与并集之间的比值。

阈值：根据实际情况可调节

IOU = 0.5

如果预测框与真实框的IOU > 0.5，那么此预测框归为TP

如果0 < IOU <= 0.5，那么此预测框归为FP

如果IOU < 0 ，那么此预测框归为 FN

检测到同一个GT的多余检测框也归为FP，怎么解释呢？对于秋香图来说，只有秋香一个GT，可能这时候有若干个预测框都符合 IOU > 0.5，那么此时只能取其中一个框作为TP，而剩余的检测框只能够归为 FP。这是为什么呢？答：秋香只能属于唐伯虎一个人！

TP:实际为正样本且被模型预测为正样本的数量。

FP:实际为负样本但被模型错误地预测为正样本的数量。

FN：实际为正样本但被模型错误地预测为负样本的数量。

被分类器判断为正类别的数据点中，正确分类为正类别的比例。即在所有被分类为正类别的样本中，有多少是真正的正类别

所有的正类别数据点中，被正确预测为正类别的比例。即在所有真正的正类别样本中，有多少被分类为正类别

两者区别：

不恰当的例子，当发生严重事故的时候，有许多不同程度受伤的人，那么这时

候Precision就表示准确的判断这个人受了什么伤，更倾向于准确确定伤员病

情。而Recall是查全率，表示查找这一个区域里到底有多少成员受伤了。毕竟在

这种危急时刻，查找所有受伤的成员，并把他们解救出来是摆在首要位置的，

这时候Recall的作用可能更为重要。这两个评价指标之间并没有孰好孰坏之分，

只是在不同的场景之下

如果有不同的几个模型，他们有着不同的Precision与Recall，那么我们应该如何挑最优的模型？

最直接的办法就是取Precision与Recall的平均值，但取平均值并不可取。因为有时二者有一个极高，一个极低时，这样平均值是高的，但实际的效果并不会好。这时就要用F1-score来权衡Precision与Recall的平均值。

得到一系列的PR值，组合在一起形成PR曲线

作用：
1. PR曲线能够帮助我们更全面地评估分类模型在不同情况下的性能表现，尤其是在处理不平衡数据集或强调查准率和召回率平衡的任务中尤为重要。
2. 通过分析PR曲线，我们可以了解模型在查准率和召回率之间的权衡关系，进而优化模型的参数或选择更适合的模型。
性能评估：
1. 当PR曲线越靠近右上角时，表示模型在平衡查准率与召回率方面做得更好。
2. 在比较两个模型时，可以通过比较曲线下方的面积来评估它们的性能，面积越大的模型对应的PR曲线在整个召回率范围内都表现更好。

AP值的计算基于Precision-Recall（PR）曲线。PR曲线是以Recall为横坐标，Precision为纵坐标绘制的曲线。
对于PR曲线上的每一个点，其对应的Precision值是该Recall值下最大的Precision值（当Recall大于或等于该值时）。
AP值即为PR曲线下的面积。具体计算方法有两种：
- VOC2010之前：AP = 1/11 ∑ Max(p(r))，其中r∈{0,0.1,...,1}，Max(p(r))表示在r点的最大precision值。
- VOC2010之后：AP采用插值方法计算，AP = 1/n ∑ Max(p(r(k))) * (r(k)-r(k-1))，其中r(k)是第k大的召回率，Max(p(r(k)))是在r(k)点的最大precision值。