mAP
- 假设目标分为两类,正例(Positive)和负例(Negative)
名称 | 解释 | 真实 | 模型判断 |
---|---|---|---|
TP(True Positive) | 正确被划分为正例的数量 | 正例 | 正例 |
FP(False Positive) | 错误被划分为正例的数量 | 负例 | 正例 |
TN(True Negative) | 正确被划分为负例的数量 | 负例 | 负例 |
FN(False Negative) | 错误被划分为负例的数量 | 正例 | 负例 |
名称 | 公式 | 解释 |
---|---|---|
Precision 准确率 | T P / ( T P + F P ) TP/(TP+FP) TP/(TP+FP) | 在模型判断为正例的数据中真实为正例的比例 |
Recall 召回率 | T P / ( T P + F N ) TP/(TP+FN) TP/(TP+FN) | 在所有正例中模型成功判断出的比例 |
P-R曲线 | P = ƒ ( R ) P = ƒ(R) P=ƒ(R) | 是以Recall为横坐标,Precision为纵坐标,通过调阈值得出的准确率关于召回率的曲线 |
AP(Average Precision) 平均准确率 | ∫ P ∫ P ∫P | P-R曲线围XY轴的面积 |
mAP(mean AP) | ∑ A P / N u m b e r O f S e t ∑AP /NumberOfSet ∑AP/NumberOfSet | 对多个验证集求平均AP值 |
【备注】 | 一般来说P-R曲线随着召回率的上升,准确率下降 | 在目标检测中可以根据每一个类画PR曲线,求AP,并对所有类求mAP |
混淆矩阵
混淆矩阵中有着Positive、Negative、True、False的概念,其意义如下:
然后,由此引出True Positive Rate(真阳率)、False Positive(伪阳率)两个概念:
⋅
TPRate
=
T
P
T
P
+
F
N
⋅
FPRate
=
F
P
F
P
+
T
N
\begin{array}{l}\cdot \text { TPRate }=\frac{T P}{T P+F N} \\ \cdot \text { FPRate }=\frac{F P}{F P+T N}\end{array}
⋅ TPRate =TP+FNTP⋅ FPRate =FP+TNFP
TPRate的意义是所有真实类别为1的样本中,预测类别为1的比例。
FPRate的意义是所有真实类别为0的样本中,预测类别为1的比例。
ROC曲线
ROC曲线的横轴是FPRate,纵轴是TPRate。
AUC
ROC曲线下的面积。物理意义:AUC是指,随机给定一个正样本一个负样本,分类器输出该正样本为正的概率值比输出负样本为正的概率值要大的概率。
当FPRate=TPRate时,ROC:y=x
![img](https://pic2.zhimg.com/80/v2-41b0ea9ac4ae69eb2b09ccb69d01e083_1440w.jpg)
表示的意义是:对于不论真实类别是1还是0的样本,分类器预测为1的概率是相等的。
换句话说,分类器对于正例和负例毫无区分能力,和抛硬币没什么区别,一个抛硬币的分类器是我们能想象的最差的情况,因此一般来说我们认为AUC的最小值为0.5(当然也存在预测相反这种极端的情况,AUC小于0.5,这种情况相当于分类器总是把对的说成错的,错的认为是对的,那么只要把预测类别取反,便得到了一个AUC大于0.5的分类器)。
而我们希望分类器达到的效果是:对于真实类别为1的样本,分类器预测为1的概率(即TPRate),要大于真实类别为0而预测类别为1的概率(即FPRate),即y>x,因此大部分的ROC曲线长成下面这个样子:
![img](https://pic2.zhimg.com/80/v2-1dbbadf0c8c8d83aa9b1caafd98758a2_1440w.jpg)
最理想的情况下,既没有真实类别为1而错分为0的样本——TPRate一直为1,也没有真实类别为0而错分为1的样本——FP rate一直为0,AUC为1,这便是AUC的极大值。
最后说说AUC的优势,AUC的计算方法同时考虑了分类器对于正例和负例的分类能力,在样本不平衡的情况下,依然能够对分类器作出合理的评价。
为什么ROC曲线总是有(0,0), (1,1)两个点?
阈值:划分预测概率和类别的界限,0.5,则预测为1的概率0.5之上的结果为1,0.5之下的结果为0。
当阈值取1,无论怎样预测全部划分为0,TPRate=0,FPRate=0。
当阈值取0,无论怎样预测全部划分为1,TPRate=1,FPRate=1。
IOU
- 交并比,目标检测中测量在一个特定数据集下检测物体的准确度的标准