YOLOv1预测阶段后处理----Non-maximum suppression(NMS非极大值抑制)

最新推荐文章于 2024-07-02 09:44:40 发布

做程序员的第一天

最新推荐文章于 2024-07-02 09:44:40 发布

阅读量1.1k

点赞数 22

分类专栏： YOLOv1 文章标签：目标跟踪人工智能计算机视觉

本文链接：https://blog.csdn.net/m0_48241022/article/details/136722378

版权

YOLOv1 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

前言：预了解

NMS，去掉冗余的框。在目标检测中，不论是最初的region proposal，还是后来的anchor box，不可避免的一个问题就是对于同一个物体，会预测出多个bounding box，如下左图所示。而NMS所做的就是去除掉多余的bounding box，只保留和ground truth重叠度最高的bounding box，如下右图所示。

在目标检测中，分类器会给每个bounding box（bb）计算出一个class score，就是这个bb属于每一类的概率，NMS就是根据这些值来进行的，主要流程：

对于每一类，首先把所有score<thresh1的bb的score设为0
之后，将所有的bb按照得分排序，选中最高分及其对应的bb
遍历其余的bb，如果和当前最高分bb的重叠面积(IoU)大于一定的阀值，便将遍历的bb删除
从未处理的bb中继续选择一个最高分的bb，重复上述过程
重复上述过程，直到找到全部保留的bb
然后根据所有保留bb的class score和class color画出最后的预测结果

铺垫：基础知识

在YOLOv1论文中，我们知道，网络输出的结果是一个7×7×30的一个张量（向网络输入一张图片的前提下会得到7×7×30的张量，如果输入一个批为batch_size的图像，那么最后输出结果为batch_size×7×7×30的一个张量），在这里，我们以一张图片所得到的结果为例，说明非极大值抑制算法的思路。

如下图所示，网络输出结果为一个7×7×30的一个张量，7×7表示7×7个grid_cell，我们取出其中的一个grid_cell来看，如下图红框所示的grid_cell，该grid_cell所包含的是一个30维度的向量，该向量的结构为 2×5【4+1】 + 20 ，第一个5表示第一个bounding box的4个位置坐标（x,y,w,h）和一个置信度分数confidence score（物体在这个 bounding box 中的概率），

第二个5表示的是第二个bounding box的信息，后面的20维是该 grid_cell 在包含物体的条件下是哪种类别的概率。

每一个grid_cell要预测C个条件类别概率，即为Pr(Classi | Object)。即在一个grid_cell中包含一个Object的前提下，这个grid_cell属于某个类别的概率，如下图所示。

注意：

条件类别概率针对的是每个grid_cell；置信度分数 confidence score 针对的是每个预测的bounding box。

在测试阶段，将每个 grid_cell 的conditional class probabilities 与每个 bounding box的 confidence score 相乘：

这样即可得到每个bounding box的具体类别的class score。
这乘积既包含了bounding box中预测的class的 probability信息，也反映了bounding box是否含有Object和bounding box坐标的准确度。

每一个grid_cell都能够获得两个20维度的全概率向量，49个 grid_cell 则能获得98个20维度的全概率向量。每一个黄色的竖条表示对于每个bounding box而言，它所预测的20个物体类别的概率是多少。

这98个20维的向量可视化出来的结果就是下图中间部分的上面图。

如何从含有98个框的图到最终的只有三个框的目标检测结果图，这就是NMS要做的事情，如下所示。

正题：NMS处理过程

我们现在获得了98个竖条，我们以狗这一个类别为例，假设狗是20个类别的第1个类别，则98个竖条的第一个数字是狗的概率，这98个概率中必然会有比较小的，此时我们设置一个阈值thresh(0.2)，把所有小于0.2的概率一律抹零，然后按照狗的概率的高低进行排序，将高的放在前面，低的放在后面，然后在对排序后的结果进行NMS算法处理。如下图所示。

仍然是98个竖条，我们现在只看狗的概率，即看第一行，如下图所示。那么NMS如何进行排序呢？先将最高的拿出来，然后将后面的每一个与最高的作比较。

比如说我们现在来比较第一高和次高，如果这两个预测框的IoU大于设定的阈值，那么我们就认为这两个预测框重复识别了一个物体，那我们就将低概率的这个预测框删掉，直接将所对应的概率置0即可。

接下来我们比较最高和第三高，如下图所示，我们发现这两个预测框的IoU没有大于设定的IoU阈值，那么我们就保留这个第三高所对应的蓝框。

随后，我们将其余的均和第一高进行比对，删除掉大于IoU阈值的框。【注意：在狗这一类别中，经过NMS处理后不一定只剩预测狗这一个预测框，还有可能有其他的预测框存在，但其他类别经过这样处理之后，多余的预测框就会被删掉，此时就可保留预测狗的预测框】

上述流程是针对狗这一个类别，我们应该对20个类别均执行上述的操作，那么就可以得到最终的目标检测结果，也就是得到最终的三个预测框，如下图所示。

在对20个类别均经过NMS处理之后，得到的结果是一个稀疏矩阵，肯定会有很多全零向量，即上面的部分黄色竖条所包含的元素是全零元素。如果某个黄色竖条不是全为零的向量，那么我们把不为零所对应的类别拎出来，再将对应的得分拎出来，作为目标检测的结果。

参考：

YOLOv1论文理解-CSDN博客

做程序员的第一天

关注

22
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
YOLOv1预测阶段后处理----Non-maximum suppression(NMS非极大值抑制)

在目标检测中，不论是最初的region proposal，还是后来的anchor box，不可避免的一个问题就是对于同一个物体，会预测出多个bounding box，如下左图所示。而NMS所做的就是去除掉多余的bounding box，只保留和ground truth重叠度最高的bounding box，如下右图所示。
复制链接

扫一扫

专栏目录