目标检测（后处理）：从 NMS 到 Soft-NMS 到 Softer NMS

最新推荐文章于 2024-05-01 09:29:29 发布

牛顿爱吃香蕉

最新推荐文章于 2024-05-01 09:29:29 发布

阅读量3.7k

点赞数 8

分类专栏：目标检测论文深度学习文章标签： NMS Soft-NMS Softer-NMS

本文链接：https://blog.csdn.net/weixin_41665360/article/details/99818073

版权

深度学习同时被 2 个专栏收录

19 篇文章 1 订阅

订阅专栏

目标检测论文

13 篇文章 3 订阅

订阅专栏

目标检测（后处理）：从 NMS 到 Soft-NMS 到 Softer NMS

1、NMS

非最大抑制（NMS）主要用于基于深度学习的目标检测模型输出的后处理，从而去除冗余的检测框，获得正确的检测结果。示意图如下：
在这里插入图片描述

算法流程：

将网络输出框集合 $B$ 按照置信度分数 $S$ 从高到低的顺序排序，定义 $D$ 为最终检测框集合， $N_t$ 为 $N M S$ 阈值。
当 $B$ 不为空集时：
- $m$ 为置信度分数最高的框，将 $m$ 放入 $D$ ，并将它从 $B$ 中删除
- 对于 $B$ 中余下的每个框 $b_i$ ：
  如果 $b_i)\ge N_t$ ，则将 $b_i$ 从 $B$ 中删除
返回检测结果 $D$

通过分析可以发现 $N M S$ 存在以下几个缺陷：

稠密场景下漏检多：如下图 $1$ 所示，当两个目标距离较近存在部分重叠时，置信度较小的目标漏检的可能性较大。
图 1: 红色框的置信度比绿色框的置信度高，两个框重叠较多，NMS 会将绿色框过滤
$N M S$ 默认置信度分数较高的框，定位更精确，由于分类和回归任务没有直接相关性，因此这个条件并不总是成立。比如图 $2$ 中，置信度分数高的边界框并不总是比置信度低的框更可靠。
图 2: $(a)$ 中两个边界框位置都不够精确； $(b)$ 中置信度较高的边界框的左边界精确度较低
$G r o u n d T r u t h$ 的标注可能并不可靠。
代码：

import numpy as np

def nms(dets, Nt):

    x1 = dets[:,0]
    y1 = dets[:,1]
    x2 = dets[:,2]
    y2 = dets[:,3]
    scores = dets[:,4]

    order = scores.argsort()[::-1]
    #计算面积
    areas = (x2 - x1 + 1)*(y2 - y1 + 1)

    #保留最后需要保留的边框的索引
    keep = []
    while order.size > 0:
        # order[0]是目前置信度最大的，肯定保留
        i = order[0]
        keep.append(i)
        
        #计算窗口i与其他窗口的交叠的面积
        xx1 = np.maximum(x1[i], x1[order[1:]])
        yy1 = np.maximum(y1[i], y1[order[1:]])
        xx2 = np.minimum(x2[i], x2[order[1:]])
        yy2 = np.minimum(y2[i], y2[order[1:]])

        #计算相交框的面积,不相交时用0代替
        w = np.maximum(0.0, xx2 - xx1 + 1)
        h = np.maximum(0.0, yy2 - yy1 + 1)
        inter = w * h

        #计算IOU：相交的面积/相并的面积
        ovr = inter / (areas[i] + areas[order[1:]] - inter)
        
        inds = np.where(ovr < thresh)[0]
        order = order[inds + 1]

    return keep

# test
if __name__ == "__main__":
    dets = np.array([[30, 20, 230, 200, 1],
                     [50, 50, 260, 220, 0.9],
                     [210, 30, 420, 5, 0.8],
                     [430, 280, 460, 360, 0.7]])
    thresh = 0.35
    keep_dets = nms(dets, thresh)
    print(keep_dets)
    print(dets[keep_dets])

时间复杂度： $O(n^2)$ ，其中 $n$ 为待筛选检测框数量

2、Soft-NMS

针对 $N M S$ 存在的第一个问题，通过分析发现主要是因为在 $N M S$ 算法中每次直接将与 $m$ 的 $i o u$ 大于等于 $N_t$ 的检测框直接删除导致的。 因此基于 $N M S$ 算法， $S o f t - N M S$ 进行了如下改进：

将于 $m$ 重叠的检测框置信度降低，而不是直接删除。

这样可能存在另一个问题，同一目标的其他检测框也可能被保留下来。因此需要设计合适的策略，既保留相近的其他目标，又删除重复检测的目标。直觉上可以发现通常重复的检测框具有更高的重叠，因此可以根据 $i o u$ 大小来设计置信度分数下降的程度。置信度修正策略如下：
$s_{i}=\left\{\begin{array}{ll}{s_{i},} & {\operatorname{iou}\left(\mathcal{M}, b_{i}\right)<N_{t}} \\ {s_{i}\left(1-\operatorname{iou}\left(\mathcal{M}, b_{i}\right)\right),} & {\operatorname{iou}\left(\mathcal{M}, b_{i}\right) \geq N_{t}}\end{array}\right.$
该策略为 $i o u$ 的线性函数，同样可以使用高斯惩罚函数
$s_{i}=s_{i}*e^{-\frac{\mathrm{i} \text { ou }\left(\mathcal{M}, b_{i}\right)^{2}}{\sigma}}, \forall b_{i} \notin \mathcal{D}$
算法流程如下图所示：
在这里插入图片描述

图 3: 红色框中的代码是 NMS 的方法，绿色框中的代码为 Soft-NMS 的实现—NMS等价于Soft-NMS的特殊情况（使用0/1惩罚项代替线性或高斯惩罚函数）

代码：

# -*- coding:utf-8 -*-
import numpy as np
def py_cpu_softnms(dets, Nt=0.3, sigma=0.5, thresh=0.5, method=2):
    """
    py_cpu_softnms
    :param dets:   boexs 坐标矩阵 format [x1, y1, x2, y2, score]
    :param Nt:     iou 交叠阈值
    :param sigma:  使用 gaussian 函数的方差
    :param thresh: 最后的分数阈值
    :param method: 使用的方法，1：线性惩罚；2：高斯惩罚；3：原始 NMS
    :return:       留下的 boxes 的 index
    """

    N = dets.shape[0]
    # the order of boxes coordinate is [x1,y1,x2,y2]
    x1 = dets[:, 0]
    y1 = dets[:, 1]
    x2 = dets[:, 2]
    y2 = dets[:, 3]
    areas = (x2 - x1 + 1) * (y2 - y1 + 1)

    for i in range(N):
        # intermediate parameters for later parameters exchange
        tB = dets[i, :4]
        ts = dets[i, 4]
        ta = areas[i]
        pos = i + 1

        if i != N-1:
            maxscore = np.max(dets[:, 4][pos:])
            maxpos = np.argmax(dets[:, 4][pos:])
        else:
            maxscore = dets[:, 4][-1]
            maxpos = -1

        if ts < maxscore:
            dets[i, :] = dets[maxpos + i + 1, :]
            dets[maxpos + i + 1, :4] = tB

            dets[:, 4][i] = dets[:, 4][maxpos + i + 1]
            dets[:, 4][maxpos + i + 1] = ts

            areas[i] = areas[maxpos + i + 1]
            areas[maxpos + i + 1] = ta

        # IoU calculate
        xx1 = np.maximum(dets[i, 0], dets[pos:, 0])
        yy1 = np.maximum(dets[i, 1], dets[pos:, 1])
        xx2 = np.minimum(dets[i, 2], dets[pos:, 2])
        yy2 = np.minimum(dets[i, 3], dets[pos:, 3])

        w = np.maximum(0.0, xx2 - xx1 + 1)
        h = np.maximum(0.0, yy2 - yy1 + 1)
        inter = w * h
        ovr = inter / (areas[i] + areas[pos:] - inter)
        
        # Three methods: 1.linear 2.gaussian 3.original NMS
        if method == 1:  # linear
            weight = np.ones(ovr.shape)
            weight[ovr > Nt] = weight[ovr > Nt] - ovr[ovr > Nt]
        elif method == 2:  # gaussian
            weight = np.exp(-(ovr * ovr) / sigma)
        else:  # original NMS
            weight = np.ones(ovr.shape)
            weight[ovr > Nt] = 0

        dets[:, 4][pos:] = weight * dets[:, 4][pos:]

    # select the boxes and keep the corresponding indexes
    inds = np.argwhere(dets[:, 4] > thresh)
    keep = inds.astype(int).T[0]

    return keep

算法时间复杂度： $O(n^2)$ ，其中 $n$ 为待筛选检测框数量

注意：

通过对比可以看出，原始 $N M S$ 与 $S o f t - N M S$ 算法中的模式 $3$ 等价，也就是说，删除 $i o u$ 过高的重叠框等价于将该重叠框置信度分数置 $0$ 。

3、Softer-NMS

$S o f t - N M S$ 只解决了三个问题中的第一个问题。对于第二个问题，分类置信度分数和框的 $i o u$ 不是强相关，因此需要一种新的方法来衡量框的位置置信度。

作者假设边界框的 $4$ 个坐标值之间相互独立，并使用单变量高斯分布来预测位置置信度。
$P_{\Theta}(x)=\frac{1}{\sqrt{2 \pi \sigma^{2}}} e^{-\frac{\left(x-x_{e}\right)^{2}}{2 \sigma^{2}}}$
其中 $\Theta$ 为可学习参数的集合， $x_e$ 为被估计的边界框位置。标准差 $\sigma$ 衡量预测的不确定性，当 $\sigma \rightarrow0$ 时，表示网络对预测的位置的置信度很高。

$G T$ 边界框置信度也可以使用高斯分布来表示，当 $\sigma \rightarrow0$ 时，变成 $D i r a c d e l t a$ 函数：
$P_{D}(x)=\delta\left(x-x_{g}\right)$
其中， $x_g$ 为 $G T$ 边界框位置。

KL 损失函数

目标定位的目标是估计参数 $\hat{\Theta}$ ，使 $N$ 个样本的 $P_{\Theta}(x)$ 和 $P_{D}(x)$ 之间的 $K L$ 散度最小。
$\hat{\Theta}=\underset{\Theta}{\arg \min } \frac{1}{N} \sum D_{K L}\left(P_{D}(x) \| P_{\Theta}(x)\right)$
使用 $K L$ 散度作为回归损失函数，对于单个样本：
$\begin{aligned} L_{r e g} &=D_{K L}\left(P_{D}(x) \| P_{\Theta}(x)\right) \\ &=\int P_{D}(x) \log P_{D}(x) \mathrm{d} x-\int P_{D}(x) \log P_{\Theta}(x) \mathrm{d} x \\ &=\frac{\left(x_{g}-x_{e}\right)^{2}}{2 \sigma^{2}}+\frac{\log \left(\sigma^{2}\right)}{2}+\frac{\log (2 \pi)}{2}-H\left(P_{D}(x)\right) \end{aligned}$
分析可知，当 $x_e$ 预测不准确时，网络预测更大的 $\sigma^2$ 使 $L_{reg}$ 更小。 $\frac{log(2\pi)}{2}$ 和 $H(P_D(x))$ 与估计参数 $\Theta$ 无关，因此
$L_{r e g} \propto \frac{\left(x_{g}-x_{e}\right)^{2}}{2 \sigma^{2}}+\frac{1}{2} \log \left(\sigma^{2}\right)$
在这里插入图片描述

图 4: 灰色曲线为估计的分布，橙色曲线为 $G T$ 的 $D i r a c d e l t a$ 分布。当位置 $x_e$ 估计不准确时，网络预测更大的 $\sigma^2$ 使 $L_{reg}$ 更小，蓝色曲线。

由于 $\sigma$ 位于分母，为了防止梯度爆炸，网络预测 $\alpha=log(\sigma^2)$ 代替直接预测 $\sigma$ 。
$L_{r e g} \propto \frac{e^{-\alpha}}{2}\left(x_{g}-x_{e}\right)^{2}+\frac{1}{2} \alpha$
对于 $x_g-x_e|>1$ 使用类似于 $smooth~L_1$ 损失。
$L_{r e g}=e^{-\alpha}\left(\left|x_{g}-x_{e}\right|-\frac{1}{2}\right)+\frac{1}{2} \alpha$

方差投票

获取预测框位置方差后，根据相邻边界框位置方差来对候选框投票。 $s o f t e r - N M S$ 算法如下。
在这里插入图片描述

图 5: Softer-NMS 算法。蓝色和绿色分别为 $S o f t - N M S$ 和 $S o f t e r - N M S$
位置更新规则如下：

\begin{aligned} p_{i} &amp;=e^{-\left(1-I o U\left(b_{i}, b\right)\right)^{2} / \sigma_{t}} \\ x &amp;=\frac{\sum_{i} p_{i} x_{i} / \sigma_{x, i}^{2}}{\sum_{i} p_{i} / \sigma_{x, i}^{2}} \\ &amp; \text { subject to } \operatorname{IoU}\left(b_{i}, b\right)&gt;0 \end{aligned}

通过分析发现，有两类邻近框权重较低：

位置方差较大的检测框
和选中框的 $i o u$ 小的框

由于分类分数较低的框可能有较高的位置置信度，因此分类置信度不参与位置投票。

4、总结

本文主要介绍了 $N M S$ 、 $S o f t - N M S$ 和 $S o f t e r - N M S$ 算法，及其主要改进的方向。

$N M S$ 主要用于去除重复的检测框。
$S o f t - N M S$ 在 $N M S$ 的基础上，不再直接去除重叠较高的检测框，而是将重叠的检测框的分类置信度分数降低。最终去除重复的检测框，而保留存在一定程度重叠的不同目标的检测框，该方法比较适用于稠密目标的检测。
在前两者的基础上， $S o f t e r - N M S$ 算法对检测框的位置概率分布进行建模。对于重叠的检测框，根据重叠程度和位置不确定性进行投票，重叠程度高，位置分布方差小的检测框权重大，从而获得更精确的检测框。