目标检测基础知识

带土1

已于 2023-06-08 18:09:48 修改

阅读量347

点赞数

分类专栏：深度之眼目标检测文章标签：目标检测深度学习人工智能

于 2023-06-02 01:56:51 首次发布

本文链接：https://blog.csdn.net/2301_78486960/article/details/130998870

版权

深度之眼目标检测专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1 目标检测发展脉络

1.1目标检测任务及发展脉络 Object detection task and its development

图像处理三大任务：物体识别、目标检测、图像分割
- 目标检测：给定一张图像，判断图像中是否存在指定类别的目标，若存在，则输出目标位置、类别及置信度。

目标检测属于多任务，一个任务是目标分类，另一个是目标位置的确定，即分类与回归

在这里插入图片描述

基于深层神经网络的目标检测
- 双阶段(two-stage)：第一级网络用于候选区域提取;第二级网络对提取的候选区域进行分类和精确坐标回归，例如RCNN系列。
- 单阶段(one-stage)：掘弃了候选区域提取这一步骤，只用一级网络就完成了分类和回归两个任务，例如YOLO和SSD等。
单阶段网络的准确度为何不如双阶段网络，训练中的不均衡
- 负例过多，正例过少，负例产生的损失完全淹没了正例；
- 大多数负例十分容易区分，网络无法学习到有用信息。如果训练数据中存在大量这样的样本，将导致网络难以收敛。
双阶段网络如何解决训练中的不均衡
- 在 R P N 网络（RPN全称是Region Proposal Network，Region Proposal的中文意思是“区域选取”，也就是“提取候选框”的意思，所以RPN就是用来提取候选框的网络。）中，根据前景置信度的高度选择最有可能的候选区域，从而避免大量容易区分的负例；
- 训练过程中根据交并比进行采样，将正负样本比例设为 1 : 3 ，防止过多负例出现。

2 常用数据集介绍及数据交互

在这里插入图片描述

Pascal Voc

在这里插入图片描述

下载地址： http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html

P a s c a l v o c ，分为 2 0 0 7 和 2 0 1 2 两个版本，其提供的数据集里包含了 2 0 类的物体。
P A S C A L V O C 的主要 2 个任务是 ( 按照其官方网站所述，实际上是 5 个 )：
① 分类：对于每一个分类，判断该分类是否在测试照片上存在（共 2 0 类）；
② 检测：检测目标对象在待测试图片中的位置并给出矩形框坐标（ b o u n d i n g b o x ）；
③ 分割 : 对于待测照片中的任何一个像素，判断哪一个分类包含该像素（如果 2 0 个分类没有一个包含该像素，那么该像素属于背景）；
④ （在给定矩形框位置的情况下）人体动作识别；
⑤ L a r g e S c a l e R e c o g n i t i o n （由 I m a g e N e t 主办）。

在这里插入图片描述

导入图像对应的 . x m l 文件，针对每一幅图像，对应一个体 d i c t
- 属性 ’ b o x e s ’ ， ’ g t _ c l a s s e s ’ ，’ g t _ o v e r l a p s ’ ， ’ f l i p p e d ’ ， ’ s e g _ a r e a s ’
COCO
- C O C O ，分为 2 0 1 4 、 2 0 1 5 和 2 0 1 7 版本

在这里插入图片描述
在 a n n o t a t i o n s 文件夹中对数据标注信息进行统一管理。例如， t r a i n 2 0 1 4 的检测与分割标注文件为 i n s t a n c e s _ t r a i n 2 0 1 4 . j s o n

o b j e c t i n s t a n c e s ( 目标实例 ) 、 o b j e c t k e y p o i n t s ( 目标关键点 ) 、 i m a g e c a p t i o n s ( 看图说话 ) 三种类型的标注

在这里插入图片描述

3 评价指标及计算方法介绍

常见的评价指标

True positives (TP): 被正确地划分为正例的个数，即实际为正例且被分类器划分为正例的实例数；
False positives (FP): 被错误地划分为正例的个数，即实际为负例但被分类器划分为正例的实例数；
False negatives (FN):被错误地划分为负例的个数，即实际为正例但被分类器划分为负例的实例数；
True negatives (TN): 被正确地划分为负例的个数，即实际为负例且被分类器划分为负例的实例数。

精准率：Precision = TP / (TP + FP) = TP / 所有被模型预测为正样本的数据的数量
召回率：Recall = TP / (TP + FN) = TP / 所有真实类别为正样本的数据的数量

PR曲线

我们当然希望检测的结果P越高越好，R也越高越好，但事实上这两者在某些情况下
是矛盾的。所以我们需要做的是找到一种精确率与召回率之间的平衡。其中一个方法就是画出PR曲线，然后用PR曲线下方的面积AUC（Area under Curve）去判断模型的好坏。

在这里插入图片描述

IoU指标 Intersection over Union

在这里插入图片描述

训练好的目标检测模型会给出大量的预测结果，但是其中大多数的预测值都会有非
常低的置信度（confidence score），因此我们只考虑那些置信度高于某个阈值的预测结果。
将原始图片送入训练好的模型，在经过置信度阈值筛选之后，目标检测算法给出带有边界框的预测结果：
在这里插入图片描述

IoU是预测框与ground truth的交集和并集的比值。对于每个类，预测框和ground
truth重叠的区域是交集，而横跨的总区域就是并集。

在这里插入图片描述

目标检测中的PRPR in Object Detection
TP: IoU>0.5的检测框数量（同一Ground Truth只计算一次）
FP: IoU<=0.5的检测框，或者是检测到同一个GT的多余检测框的数量
FN: 没有检测到的GT的数量
由于图片中我们没有预测到物体的每个部分都被视为Negative，因此计算True
Negatives比较难办。
Precision = TP / (TP + FP) = TP / 所有被模型预测为正样本的数据的数量
Recall = TP / (TP + FN) = TP / 所有真实类别为正样本的数据的数量
在PASCAL VOC数据集中标注为difficult的数据不计入计算
mAP的计算方式 PR in Object Detection

通过PR曲线，我们可以得到对应的AP值：

在2010年以前，PASCAL VOC竞赛中AP是这么定义的：
首先要对模型预测结果进行排序（ranked output，按照各个预测值置信度降序排列。
我们把recall的值从0到1划分为11份：0、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1.0。
在每个recall区间（0-0.1, 0.1-0.2，0.2-0.3，…，0.9-1.0）上我们计算精确率的最大值，然后再计算这些精确率最大值的总和并平均，就是AP值。
从2010年之后，PASCAL VOC竞赛把这11份recall点换成了PR曲线中的所有recall数据点。
对于某个recall值r，precision值取所有recall>=r中的最大值（这样保证了p-r曲线是单调递减的，避免曲线出现摇摆）这种方法叫做all-points-interpolation。这个AP值也就是PR曲线下的面积值。