生成候选区域的三种方法

无所叼魏

已于 2023-06-04 11:35:46 修改

阅读量1.1k

点赞数 4

文章标签：计算机视觉深度学习人工智能

于 2023-06-04 11:16:00 首次发布

本文链接：https://blog.csdn.net/m0_70484757/article/details/131024084

版权

1.滑动窗口

滑动窗口是在在图像上按照一定的步长和比例滑动一个固定大小的窗口，并在每个窗口位置进行目标检测。在每个窗口位置，窗口内的图像区域会被提取出来，并输入到模型中进行分类和定位。它是一种暴⼒穷举的⽅式，会消耗⼤量的计算⼒，并且由于窗口设置⼤⼩问题，极有可能会造成效果不准确。

2.选择性搜索

选择性搜索的基本思想是将图像分割成多个区域，并通过一些启发式规则来合并相似的区域。这些启发式规则通常基于区域的颜色、纹理、边缘等低级特征。
1.分割：首先，选择性搜索对输入图像进行分割，将图像划分为多个区域。分割过程可以使用基于像素相似性的方法，如基于颜色、纹理或梯度等特征进行区域分割。
2.区域合并：在分割的基础上，选择性搜索通过合并相邻区域来形成更大的候选区域。合并过程基于区域之间的相似性度量，通常使用颜色、纹理、尺寸等特征进行相似性度量。相似性高的区域会被合并成更大的候选区域。
3.候选区域生成：在分割和合并的过程中，选择性搜索会生成一系列不同尺寸和形状的候选区域。这些候选区域代表了图像中可能包含目标的区域。
4.生成候选框：根据生成的候选区域，选择性搜索会将每个候选区域转化为边界框（候选框），以便后续的目标分类和定位。
选择性搜索的优点是能够生成多尺度和多形状的候选区域，适应不同大小和形状的目标对象。然而，它的缺点是计算量较大且速度较慢，不适用于实时目标检测任务。

3.RPN模块

RPN⽹络⽤于⽣成候选区域，其主要流程为：

1.锚框生成：

RPN网络会在特征图上生成一系列锚框（Anchor Boxes），用于候选区域的生成。锚框是预定义的一些矩形框，根据不同的尺度和宽高比生成，覆盖了特征图上不同位置和大小的区域。

一般情况下，Anchor Boxes的大小是根据数据集中目标的平均大小和分布进行选择的。常见的做法是设置多个尺度和宽高比的Anchor Boxes来覆盖不同大小和形状的目标。比如上图就是三个32x32,64x64,128x128,和一些常见的宽高比1:1、1:2、2:1来生成Anchor Boxes。Anchor Boxes的大小选择通常需要进行实验和调优，以找到最适合特定任务和数据集的设置。

在这里插入图片描述

原图像经过一系列的下采样得到特征图，而Anchor Boxes的步长=原图/特征图，特征图的每个像素点都能在原图上找到相对应的区域，并且其的anchor点在其左上位置。从这幅图我们可以看出其相对于原来滑动窗口的优点是：高效性和多尺度适应性。

2.分类分支：

RPN网络的分类分支通过softmax用于对每个锚框进行分类，判断其是否包含目标。
在这里插入图片描述
从上图可知经过backbone之后，输入到1x1卷积层中，改变其通道数，之所以是18是因为一般我们生成Anchor Boxes通常是三个尺寸，和三个不同的宽高比，就有9个不同的Anchor Boxes，每个Anchor Boxes都有两种概率是否包含目标值，我们得到的是一个四维向量[数量,H,W,18]，经过reshape之后变成[batchsize,9xH,W,2],之所以要的变形是为：
1.9xH是每个锚框包括 9 个不同宽高比的锚框，每个锚框有 2 个分类概率（表示是否包含目标）
2.通过保持特征图的宽度维度不变，可以使得每个位置的锚框的计算相互独立，从而可以进行高效的并行计算，提高模型的运算效率。
将经过Softmax分类得到的结果进行reshape操作，将特征图的形状转换为[batchsize, H, W, 18]，其中18表示每个位置的9个锚框对应的包含目标的概率值。通过reshape操作，最终得到与输入特征图相同大小的结果，每个位置的18个特征值对应于9个锚框的分类结果。

3.回归分支：

RPN网络的回归分支用于对每个锚框进行回归，精确定位目标的位置。回归分支输出锚框的坐标偏移量，用于调整锚框的位置和大小，以更准确地匹配目标。
在这里插入图片描述
RPN的回归分支用于预测每个锚框的位置调整值，以便更准确地匹配目标对象。RPN的回归分支接收来自特征图的输入，并为每个锚框生成4个回归预测。
1.输入特征图：RPN回归分支接收来自特征提取网络（如VGG、ResNet等）的特征图作为输入
2.1x1卷积层：为了减少特征图的通道数，通常会应用一个1x1的卷积层，用于降低计算复杂度。经过1x1卷积后为[1, H, W,4x9]，这⾥就是特征图每个点都有9个anchors，每个anchors⼜都有4个⽤于回归的。
回归预测：变换量预测的是anchor与真实值之间的平移量和尺度因⼦。

4Proposal层

最后Proposal层的主要作用是对RPN生成的候选区域进行筛选和排序，选取其中最有可能包含目标的候选区域,并去除超出边界的候选区域。
1.proposal层会根据rpn回归预测的平移量和尺度因子对anch修正。
2.限定边框，对超出的边框进行修正。
在这里插入图片描述

3.NMS（非极大值抑制），根据锚框的分类概率和回归预测，使用非极大值抑制算法选择最具有潜在目标的候选区域。NMS算法会根据一定的阈值筛选掉重叠度较高的候选框，从而保留最具代表性的候选区域，一般生成不超过2000个候选区域。
proposal层有三个输入：分别是候选框的分类概率，候选框的回归概率，候选框。

5.最后说说在目标检测种，faster-rcnn为什么候选区域要映射到特征图中而不是直接送到全连接层种

1.计算效率低下：全连接层需要固定大小的输入，而候选区域的数量可能非常大，导致计算复杂度极高。
2.特征共享：候选区域通常是在不同位置和尺度上提取的，直接送入全连接层会导致每个候选区域都有自己独立的特征提取过程。相比之下，通过将候选区域映射到特征图中，可以共享相同的特征提取过程，提高了特征的复用性和计算效率