NMS原理大总结

NMS即(non maximum suppression)即非极大抑制,顾名思义就是抑制不是极大值的元素,搜索局部的极大值。在最近几年常见的物体检测算法(包括rcnn、sppnet、fast-rcnn、faster-rcnn等)中,最终都会从一张图片中找出很多个可能是物体的矩形框,然后为每个矩形框为做类别分类概率。

一、NMS是怎么进行运算的?

以目标检测为例,目标检测推理过程中会产生很多检测框,其中很多检测框都是检测同一个目标,但最终每个目标只需要一个检测框。在做NMS时首先根据设定的分类阈值进行pred的过滤(通常为0.1)。假定过滤之后得到6个预测框,再根据分类器类别分类概率做排序,从小到大分别属于马的概率分别为A<B<C<D<E<F。
(1) 从最大概率矩形框F开始,分别判断A、B、C、D、E与F的重叠度IOU是否大于某个设定的阈值(普遍设置为0.5,目标检测中常设置为0.7,仅供参考)如果大于阈值,则将其看做是回归F预测框对应的物体;反之,将其看做是回归的其他物体;
(2) 假设B、D与F的重叠度超过阈值,那么就扔掉B、D,即对超过阈值的框进行抑制,抑制的做法是将检测框的得分设置为0,并标记第一个矩形框F,是我们保留下来的(B、F、D四个预测框回归的是同一个物体,对于同一个物体,选择出score最大的预测框F)
(3) 从剩下的矩形框A、C、E中,选择概率最大的E,然后判断A、C与E的重叠度,重叠度大于一定的阈值,那么就扔掉;并标记E是我们保留下来的第二个矩形框(保留理由同上)。

(4) 重复这个过程,找到所有被保留下来的矩形框。
在这里插入图片描述
原始NMS算法伪代码如下:
以一维算法举例:
在这里插入图片描述
具体代码如下:

def NMS(boxes,scores, thresholds):
    x1 = boxes[:,0]
    y1 = boxes[:,1]
    x2 = boxes[:,2]
    y2 = boxes[:,3]
    areas = (x2-x1)*(y2-y1)
 
    _,order = scores.sort(0,descending=True)
    keep = []
    while order.numel() > 0:
        i = order[0]
        keep.append(i)
        if order.numel() == 1:
            break
        xx1 = x1[order[1:]].clamp(min=x1[i])
        yy1 = y1[order[1:]].clamp(min=y1[i])
        xx2 = x2[order[1:]].clamp(max=x2[i])
        yy2 = y2[order[1:]].clamp(max=y2[i])
 
        w = (xx2-xx1).clamp(min=0)
        h = (yy2-yy1).clamp(min=0)
        inter = w*h
 
        ovr = inter/(areas[i] + areas[order[1:]] - inter)
        ids = (ovr<=thresholds).nonzero().squeeze()
        if ids.numel() == 0:
            break
        order = order[ids+1]
    return torch.LongTensor(keep)

该算法也有官方接口,如下:

torchvision.ops.nms(boxes, scores, iou_threshold)

二、多类别NMS

上面这种做法是把所有boxes放在一起做NMS,没有考虑类别。即某一类的boxes不应该因为它与另一类最大得分boxes的iou值超过阈值而被筛掉。
对于多类别NMS来说,它的思想比较简单:每个类别内部做NMS就可以了。
实现方法:把每个box的坐标添加一个偏移量,偏移量由类别索引来决定。
代码如下:

max_coordinate = boxes.max()
offsets = idxs.to(boxes) * (max_coordinate + torch.tensor(1).to(boxes))
boxes_for_nms = boxes + offsets[:, None]
keep = nms(boxes_for_nms, scores, iou_threshold)
return keep
 
#使用方法
torchvision.ops.boxes.batched_nms(boxes, scores, classes, nms_thresh)

这里偏移量用boxes中最大的那个作为偏移基准,然后每个类别索引乘以这个基准即得到每个类的box对应的偏移量。这样就把所有的boxes按类别分开了。

三、NMS的缺点

1、需要手动设置阈值,阈值的设置会直接影响重叠目标的检测,太大造成误检,太小达不到理想情况。
2、 低于阈值的直接设置score为0,做法太hard。
3、通过IoU来评估,IoU的做法对目标框尺度和距离的影响不同。

四、NMS的改进思路

1、根据手动设置阈值的缺陷,通过自适应的方法在目标稀疏时使用小阈值,目标稠密时使用大阈值。例如Adaptive NMS
2、 将低于阈值的直接置为0的做法太hard,通过将其根据IoU大小来进行惩罚衰减,则变得更加soft。例如Soft NMS,Softer NMS。
3、IoU的做法存在一定缺陷,改进思路是将目标尺度、距离引进IoU的考虑中。如DIoU等。

(一)、Soft NMS

根据前面对目标检测中NMS的算法描述,易得出标准NMS容易出现的几个问题:当阈值过小时,框容易被抑制;当过大时,容易造成误检,即抑制效果不明显。因此,出现升级版soft NMS。
Soft NMS算法伪代码如下:
在这里插入图片描述
标准的NMS的抑制,IOU超过阈值的检测框的得分直接设置为0,而soft NMS主张将其得分进行惩罚衰减,有两种衰减方式,第一种惩罚函数如下
在这里插入图片描述
这种方式使用1-Iou与得分的乘积作为衰减后的值,但这种方式在略低于阈值和略高于阈值的部分,经过惩罚衰减函数后,很容易导致得分排序的顺序打乱,合理的惩罚函数应该是具有高iou的有高的惩罚,低iou的有低的惩罚,它们中间应该是逐渐过渡的。因此提出第二种高斯惩罚函数,具体如下:
在这里插入图片描述
这样soft NMS可以避免阈值设置大小的问题。
Soft NMS还有后续改进版Softer-NMS,其主要解决的问题是:当所有候选框都不够精确时该如何选择,当得分高的候选框并不更精确,更精确的候选框得分并不是最高时怎么选择 。
此外,针对这一阈值设置问题而提出的方式还有Weighted NMS和Adaptive NMS。
Weighted NMS主要是对坐标进行加权平均等其余不常见的方法在这里就不做介绍了,有想了解的朋友可以自行查找资料了解。

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
YOLOv8是基于YOLO系列的目标检测算法,它采用了一种单阶段的检测方法,通过将图像划分为不同大小的网格单元,对每个网格单元进行目标检测和分类。YOLOv8的实现原理主要包括以下几个步骤: 1. 网络输入:首先,将待检测的图像经过预处理,转换成神经网络模型可以接受的输入格式。 2. 特征提取:使用深度卷积神经网络提取图像的特征。YOLOv8通常使用Darknet作为基础网络,通过多个卷积层和池化层将图像特征进行提取。 3. 目标检测:在每个网格单元中,通过预测边界框的位置和类别来进行目标检测。YOLOv8采用了多尺度特征融合的方法,可以检测不同大小的目标。同时,YOLOv8还引入了anchor boxes的概念,用于预测不同形状的目标。 4. NMS筛选:在目标检测结果中,可能会有重叠的边界框,为了去除重复的检测结果,采用非极大值抑制(NMS)算法进行筛选。NMS算法会根据预测框的置信度得分和重叠度进行筛选,保留最有可能的目标框。 5. 输出结果:将经过筛选后的目标框输出为最终的检测结果。每个目标框包含目标的位置(边界框的坐标)和类别(如汽车、行人等)。 总结起来,YOLOv8实现目标检测的原理就是通过深度卷积神经网络提取图像特征,然后在每个网格单元中进行目标检测和分类,并使用NMS算法去除重叠的检测结果,最后输出检测结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值