物体检测技术
物体检测技术,通常是指在一张图像中检测出物体出现的位置及对
应的类别。
在计算机视觉中,图像分类、物体检测与图像分割是最基础:
图像分类:输入图像往往仅包含一个物体,目的是判断每张图像是什么物体,是图像级别的任务,相对简单,发展也最快。
物体检测:输入图像中往往有很多物体,目的是判断出物体出现的位置与类别,是计算机视觉中非常核心的一个任务。
图像分割:输入与物体检测类似,但是要判断出每一个像素属于哪一个类别,属于像素级的分类。图像分割与物体检测任务之间有很多联系,模型也可以相互借鉴。
下图为以上三种处理的使用效果:
物体检测评价
IoU(Intersection of Union)
IoU公式如下:
I
o
U
A
B
=
S
A
∩
S
B
S
A
∪
S
B
\color{blue} IoU_{AB}=\frac{S_A∩S_B}{S_A∪S_B}
IoUAB=SA∪SBSA∩SB
公式比较抽象,那么看以下图片或许可以更好的理解:
对于IoU而言,我们通常会选取一个阈值,如0.5,来确定预测框是
正确的还是错误的。当两个框的IoU大于0.5时,我们认为是一个有效的
检测,否则属于无效的匹配。
正确检测框TP(True Positive)
预测框正确地与标签框匹配了,两者间的IoU大于0.5
误检框FP(False Positive)
将背景预测成了物体,通常这种框与图中所有标签的IoU都不会超过0.5。
漏检框FN(False Negative)
本来需要模型检测出的物体,模型没有检测出
正确背景(True Negative)
本身是背景,模型也没有检测出来,这种情况在物体检测中通常不需要考虑。
mAP(mean Average Precision)
这一指标来评价一个模型的好坏,这里的AP指的是一个类别的检测精度,mAP则是多个类别的平均精度。
召回率(Recall,R)和准确率(Precision,P)
通俗易懂的一句概括就是:精度就是找得对,召回率就是找得全。