传统的精度、召回率 和F1已广泛用于模式识别和信息检索领域。一定程度上,它在视觉分割、检测等领域中为一种通用的评价标准。对应的 P r e Pre Pre、 R e c Rec Rec 和F1-measure( F F F) 在视觉领域通常是基于像素级定义,如下:
P r e = T P / ( T P + F P ) R e c = T P / ( T P + F N ) F = 2 ∗ P r e ∗ R e c a l l / ( P r e + R e c ) \begin{array}{c} Pre = TP/(TP + FP) \\ Rec = TP/(TP + FN) \\ F = 2 \ast Pre \ast Recall / (Pre + Rec) \end{array} Pre=TP/(TP+FP)Rec=TP/(TP+FN)F=2∗Pre∗Recall/(Pre+Rec)
其中 T P TP TP表示正确检测到的像素点数, F P FP FP表示虚假缺陷像素点数, F N FN FN表示未检测到的缺陷像素点数。精度和召回率之间存在反比关系。也就是说,增大其中一个势必是以减小另一个为代价。因此为了相互平衡,引入了F1-measure指标。较高的F1-measure,表明正确的检测结果越多,并能达到与人类的判断相一致。然而为了统计 P r e Pre Pre、 R e c Rec Rec 和F1-measure( F F F)这三个评价指标,我们需要对缺陷区域里逐个像素进行精确而完整的标记,否则会给检测性能带来很大的影响。然而,逐像素的标记,不仅任务量巨大而且带有很强的主观性,从而不能客观地反映设计算法的性能。为了有效地评估算法的性能,我们根据缺陷检测的特点,提出了一种新的缺陷级评价指标 P r e ′ Pre' Pre′、 R e c ′ Rec' Rec′ 和F1-measure( F ′ F' F′),定义如下:
P r e ′ = T P p / P R e c ′ = T P r / N F ′ = 2 ∗ P r e ′ ∗