深度学习笔记-014-目标检测基础知识

最新推荐文章于 2023-10-19 10:23:50 发布

地表最菜研究生

最新推荐文章于 2023-10-19 10:23:50 发布

阅读量525

点赞数

分类专栏：深度学习笔记文章标签：深度学习

本文链接：https://blog.csdn.net/tuanzi2809/article/details/114502512

版权

深度学习笔记专栏收录该内容

33 篇文章 6 订阅

订阅专栏

目标检测任务及发展脉络

图像处理三大任务： 物体识别 、 目标检测 、 图像分割

目标检测：
给定一张图像，判断图像中是否存在指定类别的目标，若存在，则输出目标位置、类别及置信度。
目标检测的任务：
目标检测属于多任务，一个任务是目标分类，另一个是目标位置的确定，即分类与回归
目标检测发展历程如下图

基于深层伸进网络的目标检测的两种分类：

双阶段（two stage）：第一级网络用于候选区域提取；第二级网络对提取的候选区域进行分类和紧缺坐标回归
单阶段（one-stage）:掘弃了候选区域提取这一步骤，只用一级网络就完成了分类和回归两个任务，例如YOLO和SSD等

单阶段网络的准确度不如双阶段网络的原因（训练中的不均衡）

负例过多，正例过少，负例产生的损失完全淹没了正例
大多数福利十分容易区分，网络无法学习到有用的信息。如果训练数据中存在大量的简单负例样本，将导致网络难以收敛。

双阶段网络如何解决训练中的不均均衡问题？

在 R P N 网络中，根据前景置信度的高度选择最有可能的候选区域，从而避免大量容易区分的负例；
训练过程中根据交并比进行采样，将正负样本比例设为 1 : 3 ，防止过多负例出现。

常见的评价指标

True pos itives (TP): 被正确地划分为正例的个数，即实际为正例且被分类器划分为正例的实例数；
Fal se pos itives (FP): 被错误地划分为正例的个数，即实际为负例但被分类器划分为正例的实例数；
Fal se negatives (FN):被错误地划分为负例的个数，即实际为正例但被分类器划分为负例的实例数；
True negatives (TN): 被正确地划分为负例的个数，即实际为负例且被分类器划分为负例的实例数。
Precision = TP / (TP + FP) = TP / 所有被模型预测为正样本的数据的数量
Recall = TP / (TP + FN) = TP / 所有真实类别为正样本的数据的数量

PR曲线（PR curve）

我们希望检测的结果P越高越好，R也越高越好，但事实上这两者在某些情况下是矛盾的
所以我们需要做的是找到一种精确率与召回率之间的平衡。其中一个方法就是画出 PR曲线，然后用PR曲线下方的面积AUC （Area under Curve）去判断模型的好坏。

IoU指标（）

训练好的目标检测模型会给出大量的预测结果，但是其中大多数的预测值都会有非常低的置信度（confidence score），因此我们只考虑那些置信度高于某个阈值的预测结果。将原始图片送入训练好的模型，在经过置信度阈值筛选之后，目标检测算法给出带有边界框的预测结果

IoU是预测框与ground truth 的交集和并集的比值。对于每个类，预测框和ground truth重叠的区域是交集，而横跨的总区域就是并集。

目标检测中的PR

TP: IoU>0.5的检测框数量（同一Ground Truth只计算一次）
FP: IoU<=0.5的检测框，或者是检测到同一个GT的多余检测框的数量
FN: 没有检测到的GT的数量由于图片中我们没有预测到物体的每个部分都被视为Negative，因此计算True Negatives比较难办。
Precision = TP / (TP + FP) = TP / 所有被模型预测为正样本的数据的数量
Recall = TP / (TP + FN) = TP / 所有真实类别为正样本的数据的数量
在PASCAL VOC数据集中标注为difficult的数据不计入计算

mAP的计算方式

通过PR曲线，我们可以得到对应的AP值：

在2010年以前，PASCAL VOC竞赛中AP是这么定义的：

首先要对模型预测结果进行排序（ranked output，按照各个预测值置信度降序排列。
我们把recall的值从0到1划分为11份：0、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1.0。
在每个recall区间（0-0.1, 0.1-0.2，0.2-0.3，…，0.9-1.0）上我们计算精确率的最大值，然后再计算这些精确率最大值的总和并平均，就是AP值。

从2010年之后，PASCAL VOC竞赛把这11份recall点换成了PR曲线中的所有recall数据点。对于某个recall值r，precision值取所有recall>=r中的最大值（这样保证了p-r曲线是单调递减的，避免曲线出现摇摆）这种方法叫做all-points-interpolation。这个AP值也就是PR曲线下的面积值

C O C O 中 m A P 的计算方法：
采用的是 I O U （用于决定是否为 T P ）在 [ 0 . 5 : 0 . 0 5 : 0 . 9 5 ] 计算 1 0 次 A P ，然后求均值的方法计算 A P

非极大值一致（NMS）

N具M体S的算实法现一思般路是如为下了：去掉模型预测后的多余框，其一般设有一个nms_threshold=0.5，

选取这类box中scores最大的哪一个，记为box_best，并保留它
计算box_best与其余的box的IOU
如果其IOU>0.5了，那么就舍弃这个box（由于可能这两个box表示同一目标，所以保留分数高的哪一个）
从最后剩余的boxes中，再找出最大scores的哪一个，如此循环往复

地表最菜研究生

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习笔记-014-目标检测基础知识

目标检测任务及发展脉络图像处理三大任务：物体识别、目标检测、图像分割目标检测：给定一张图像，判断图像中是否存在指定类别的目标，若存在，则输出目标位置、类别及置信度。目标检测的任务：目标检测属于多任务，一个任务是目标分类，另一个是目标位置的确定，即分类与回归目标检测发展历程如下图基于深层伸进网
复制链接

扫一扫