目标检测入门知识

-条小小鱼~

已于 2022-12-06 10:52:25 修改

阅读量1.1k

点赞数

分类专栏：计算机视觉（CV）文章标签：目标检测计算机视觉深度学习

于 2022-12-06 10:27:02 首次发布

本文链接：https://blog.csdn.net/qq_45431015/article/details/128198218

版权

计算机视觉（CV）专栏收录该内容

2 篇文章 0 订阅

订阅专栏

目标检测入门知识

目标检测任务与描述

1.目标检测算法分类

两步走的目标检测
1. 先找出候选的一些区域

2.对区域进行调整分类

端到端的目标检测
1. 采用一个网络一步到位
2. 输入图片，输出有哪些物体，物体在哪些位置

2.目标检测的任务

输入：图片
输出：物体类别，物体的位置坐标
（xmin,ymin），（xmax,ymax）:物体的左上角、右下角坐标

3.目标定位的简单实现思路

衡量网络的损失
- 分类的概率可以使用交叉熵损失衡量
- 位置信息具体的数值，可使用MSE均分误差损失（L2损失）

4.两种Bounding Box名称

Ground-truth bounding box：GT bbox 图片真实目标位置（标记结果）
Predicted bounding box：预测的时候标记

分类与定位：图片中只有一个物体需要检测
目标检测：图片中有多个物体需要检测

R-CNN

1.目标检测Overfeat模型

1.1滑动窗口

目标检测的暴利方法是从左到右，从上到下滑动窗口，利用分类识别目标。
- 为了在不同观察距离处检测不同的目标类型，我们使用不同大小和宽高比的窗口。如下所示：

注：这样就变成每张图片输出类别以及位置，变成分类问题。

但是滑动窗口需要初始设定一个固定大小的窗口，这就遇到一个问题，有些物体适应的框不一样

所以需要提前设定K个窗口，每个窗口滑动提取M个，总共K x M个图片，通常直接将图像变形转换成固定大小的图像，变形图像块被输入CNN分类器中，提取特征后，我们使用一些分类器识别类别和该边界框的另一个线性回归器。

Overfeat模型总结：这种方法类似一种暴利穷举的方式，会消耗大量的计算力量，并且由于窗口大小问题可能造成效果不准确。所以下面提供另外一种解决目标检测问题的思路——R-CNN

2. 目标检测R-CNN模型

不使用暴利破解的方法，而是使用候选区域方法（region proposal method）,创建目标检测的区域，这改变了图像领域实现物体检测的模型思路（以R-CNN为基点，后续的SPPNet、Fast R-CNN 、Faster R-CNN模型都是照着这个物体检测思路）

R-CNN步骤（以AlexNet网络为基准）
1. 找出图片可能存在目标的候选区域region proposal（默认对一张图片找出2000个候选区域）
2. 将候选区域调整，为了适应AlexNet网络的输入图像的大小227 x 227，通过CNN对候选区域提取特征向量，2000个建议框的CNN特征组合成网络AlexNet最终输出：2000 x 4096维矩阵
3. 将2000 x 4096维特征经过SVM分类器（20种分类，SVM是二分类器，则有20个SVM，以前不用神经网络分类器，通常用SVM分类器)，获得2000 x 20种类别矩阵
4. 分别对2000 x 20维矩阵中进行非极大值抑制（NMS:non-maximum suppression)剔除重叠建议框，得到与目标物体评分最高的一些建议框
5. 修正bbox，对bbox做回归微调

2.1 候选区域由Region of interest(ROI)得出

Selective Search在一张图片上提取出来约2000个候选区域，需要注意的事这些候选区域的长宽不固定。而使用CNN（这里指的是AlexNet网络）提取候选区域的特征向量，需要接受固定长度的输入，所以需要对候选区域做一些尺寸上的修改。

2.2 CNN网络提取特征

在候选区域（调整过的适合AlexNet输入的大小的候选区：227 x 227）的基础上提取出更高级、更抽象的特征，这些高级特征是作为下一步的分类器、回归的输入数据

提取的这些特征将会保存在磁盘当中（这些提取的特征才是真正的要训练的数据）

2.3 特征向量的训练分类器SVM

假设一张图片的2000个候选区域，那么提取出来的就是2000 x 4096这样的特征向量(R-CNN中默认CNN层输出4096特征向量)
R-CNN选用SVM进行二分类。假设检测20个类别，那么就会提供20个不同类别的SVM分类器，每个分类器都会对2000个候选区域的特征向量分别判断一次，这样得出[2000,20]的得分矩阵，如下图所示

2.4 非极大抑制（NMS)

目的
- 筛选候选区域，目标是一个物体只保留最优的框，来抑制那些冗余的框
迭代过程
- 对于所有的2000个候选区域得分进行概率筛选，只保留概率大于0.5的候选区域
- 剩余的候选框
  - 假设图片的真实个数为2(N)，筛选之后候选框为5(P)，计算N中每个物体位置与所有P的交并比IOU计算，得到P中候选框IOU最高的一个。如下图，A、C候选框对应左边的车辆，B、D、E对应右边的车辆。粉色的框代表GT（ground truth:物体的真实标记位置），则左边A候选框跟GT交并比的分数最高为0.8，右边同理B最高为0.9。

假设现在滑动窗口有:A、B、C、D、E 5个候选框

第一轮：对于右边车辆，假设B的得分最高（与GT的IOU为0.8），删除与B的IOU > 0.5候选框（D与B的IOU为0.6，E与B 的IOU为0.7），则删除D、E，B作为一个预测结果

第二轮：对于左边车辆，A的得分最高，则C与A计算IOU，结果>0.5，删除C，A作为一个结果

最终在这5个中检测除了两个目标A和B，则每一个GT都有一个候选框预测

SS（Selective Search）算法得到的物体位置已经固定了，但是我们筛选出的位置不一定就是特别准确，需要对A和B进行最后的修正

2.5 修正候选框

通过非极大值抑制筛选出来的候选框不一定非常准确怎么办？R-CNN提供了一个方法，建立一个bbox regressor