多检测模型边界框集成方法：Weighted boxes fusion: Ensembling boxes from different object detection models

最新推荐文章于 2023-08-15 11:22:20 发布

三木ぃ

最新推荐文章于 2023-08-15 11:22:20 发布

阅读量3.6k

点赞数 3

分类专栏：目标检测文章标签：神经网络深度学习目标检测 WBF 监测模型集成

本文链接：https://blog.csdn.net/qq_41214679/article/details/114689895

版权

目标检测专栏收录该内容

10 篇文章

订阅专栏

论文地址：链接
代码地址：链接

一、相关介绍

NMS在单个模型的的边界框过滤中表现还是不错的，但是对于多个模型的，NMS只是进行边界框的选择，去除部分预测，无法有效生成组合了多个模型的预测的平均坐标。

NMS

一个模型在图片检测中的预测包括边界框，分类标签以及其相依的置信度。在NMS方法中，如果边界框交际过大，或者重合就会被认为是同一单个目标，因此IoU的阈值会直接影响边界最后过滤的质量，也会影响最后模型的表现。阈值的选择也会存在一定的技巧，不同的任务可能设置的阈值时不同的。比如下面这个图，如果阈值设为0.5，那最后只会输出一个边界框。
在这里插入图片描述

Soft-NMS

Soft-NMS的提出就会减少以上的问题。避免完全去除高置信度和高IoU的检测proposal，会减少和IoU值成正比的置信度值。即Soft-NMS会按比例降低重叠的边界框的置信度得分，就上图而言，绿色和黄色重叠很大，最终会被去除。

虽然有相较于NMS确实有提升，但都放弃的冗余边界框，因此无法从多个模型中有效生成平均坐标预测。

二、Weighted Boxes Fusion

主要介绍这种新颖的边界框融合方法：WBF。假设使用N个不同模型对相同的图片进行边界框预测，或者说是对于相同的模型，对于相同的图片和增强后的图片预测量了N次（类似于TTA）。

然后算法如下操作：

将每个模型的每个预测边界框加入到一个单独的列表 $\mathbf B$ 中，按照置信度 $\mathbf C$ 进行递减排序。
分别为边界框簇和融合后的边界框分别声明空列表 $\mathbf L$ 和 $\mathbf F$ 。列表 $\mathbf L$ 中的每个位置，可以包含一个边界框或者一个边界框集合，形成一个簇。 $\mathbf F$ 中每个位置只包含一个边界框，从相应的 $\mathbf L$ 中的簇中融合出来的边界框。公式稍后介绍。
在一个循环中迭代 $\mathbf B$ 中的预测框，尝试找到列表F中的一个匹配边界框。匹配的定义为一个边界框在IoU>阈值的情况下存在很大的重叠。该实验阈值设置为0.55。
如果未找到匹配，则将 $\mathbf B$ 作为一个新的实体加入到列表 $\mathbf L$ 和 $\mathbf F$ 的最后，继续对 $\mathbf B$ 中下一个边界框进行处理。
如果找到匹配，则将该框添加到列表 $\mathbf L$ 中与列表 $\mathbf F$ 中匹配框对应的位置 $\mathbf{pos}$ 处。
使用所有的在簇 $\mathbf{L[pos]}$ 中的 $T$ 个边界框重新计算 $\mathbf{F[pos]}$ 中边界框的坐标和置信度得分： $\mathbf{C}=\frac{\sum_{i=1}^{\mathbf{T}} \mathbf{C}_{i}}{T}\tag{1}$
$\mathbf{X} \mathbf{1}, \mathbf{2}=\frac{\sum_{i=1}^{\mathbf{T}} \mathbf{C}_{i} * \mathbf{X} \mathbf{1}, \mathbf{2}_{i}}{\sum_{i=1}^{\mathrm{T}} \mathbf{C}_{i}}\tag{2}$
$\mathbf{Y} \mathbf{1}, \mathbf{2}=\frac{\sum_{i=1}^{\mathbf{T}} \mathbf{C}_{i} * \mathbf{Y} \mathbf{1}, \mathbf{2}_{i}}{\sum_{i=1}^{\mathbf{T}} \mathbf{C}_{i}}\tag{3}$ 注意也可以使用一些非线性的权重如 $\mathbf{C^2},sqrt(\mathbf{C})$ 等。

融合框的置信度为所有形成他的边界框的平均置信度，而其坐标也是所有形成他的边界框的坐标的加权和，权重为相应的边界框的置信度。也就是置信度越高的边界框对于融合边界框的坐标做出的贡献越大。
当 $\mathbf B$ 中的所有边界框都被处理了，对 $\mathbf F$ 列表的置信度得分重新缩估计：乘上簇中的边界框个数，在除以模型数目。也就是当簇中边界框数目少的时候，则认为有较少的边界框预测该融合框，也就是该融合框的置信度应该降低： $\mathbf{C}=\mathbf{C} * \frac{\min (T, N)}{N} \tag{4}$
或者 $\mathbf{C}=\mathbf{C} * \frac{T}{N} \tag{5}$ 实践中第一种稍微好一点。

NMS和soft-NMS都是直接排除边界框，而WBF是利用了所有的边界框。他可以修正那些被所有模型都预测错误的例子。NMS和soft-NMS处理后会剩下唯一一个错误边界框，而WBF会直接将这些错误边界框进行融合。

**non-maximum weighted（NMW）**相较于本方法，他不会去修改边界框的置信度：他使用IoU值来为边界框赋权，然后使用最大置信度的边界框和其他重叠的边界框进行比较，当然他也没有利用预测模型的个数这个信息，实验对比在下面给出。
在这里插入图片描述

三、实验与思考

本次实验使用Open Images和COCO两个检测数据集进行实验。
对所有阈值进行实验室，在每个阈值 $t$ （阈值从0.5-0.95，每0.05一次实验），会由TP，FN和FP来计算一个精确值：
$\operatorname{Precision}(t)=\frac{T P(t)}{T P(t)+F P(t)+F N(t)}$
AP计算如下：
$P=\frac{1}{\mid \text { thresholds } \mid} \sum_{t} \frac{T P(t)}{T P(t)+F P(t)+F N(t)}$