一、Nms主要目的
在物体检测非极大抑制应用十分广泛,主要目的是为了消除多余的框,找到最佳的物体检测的位置。
如上图中:虽然几个框都检测到了人脸,但是我不需要这么多的框,我需要找到一个最能表达人脸的框。下图汽车检测也是同样的原理。
非极大值抑制
因为一会儿讲RCNN算法,会从一张图片中找出n多个可能是物体的矩形框,然后为每个矩形框为做类别分类概率:
就像上面的图片一样,定位一个车辆,最后算法就找出了一堆的方框,我们需要判别哪些矩形框是没用的。非极大值抑制:先假设有6个矩形框,根据分类器类别分类概率做排序,从小到大分别属于车辆的概率分别为A、B、C、D、E、F。
(1)从最大概率矩形框F开始,分别判断A~E与F的重叠度IOU是否大于某个设定的阈值;
(2)假设B、D与F的重叠度超过阈值,那么就扔掉B、D;并标记第一个矩形框F,是我们保留下来的。
(3)从剩下的矩形框A、C、E中,选择概率最大的E,然后判断E与A、C的重叠度,重叠度大于一定的阈值,那么就扔掉;并标记E是我们保留下来的第二个矩形框。
就这样一直重复,找到所有被保留下来的矩形框。
非极大值抑制(NMS)非极大值抑制顾名思义就是抑制不是极大值的元素,搜索局部的极大值。这个局部代表的是一个邻域,邻域有两个参数可变,一是邻域的维数,二是邻域的大小。这里不讨论通用的NMS算法,而是用于在目标检测中用于提取分数最高的窗口的。例如在行人检测中,滑动窗口经提取特征,经分类器分类识别后,每个窗口都会得到一个分数。但是滑动窗口会导致很多窗口与其他窗口存在包含或者大部分交叉的情况。这时就需要用到NMS来选取那些邻域里分数最高(是行人的概率最大),并且抑制那些分数低的窗口。
二、原理
非极大抑制,顾名思义就是把非极大值过滤掉(抑制)。下面我就R-CNN或者SPP_net中的matlab源码来进行解释。
- function picks = nms_multiclass(boxes, overlap)
- %%boxes为一个m*n的矩阵,其中m为boundingbox的个数,n的前4列为每个boundingbox的坐标,格式为
- %%(x1,y1,x2,y2);第5:n列为每一类的置信度。overlap为设定值,0.3,0.5 .....
- x1 = boxes(:,1);%所有boundingbox的x1坐标
- y1 = boxes(:,2);%所有boundingbox的y1坐标
- x2 = boxes(:,3);%所有boundingbox的x2坐标
- y2 = boxes(:,4);%所有boundingbox的y2坐标
-
-
- area = (x2-x1+1) .* (y2-y1+1); %每个%所有boundingbox的面积
-
-
- picks = cell(size(boxes, 2)-4, 1);%为每一类预定义一个将要保留的cell
- for iS = 5:size(boxes, 2)%每一类单独进行
- s = boxes(:,iS);
- [~, I] = sort(s);%置信度从低到高排序
- pick = s*0;
- counter = 1;
- while ~isempty(I)
- last = length(I);
- i = I(last);
- pick(counter) = i;%无条件保留每类得分最高的boundingbox
- counter = counter + 1;
-
- xx1 = max(x1(i), x1(I(1:last-1)));
- yy1 = max(y1(i), y1(I(1:last-1)));
- xx2 = min(x2(i), x2(I(1:last-1)));
- yy2 = min(y2(i), y2(I(1:last-1)));
-
-
- w = max(0.0, xx2-xx1+1);
- h = max(0.0, yy2-yy1+1);
-
- inter = w.*h;
- o = inter ./ (area(i) + area(I(1:last-1)) - inter);%计算得分最高的那个boundingbox和其余的boundingbox的交集面积
- I = I(o<=overlap);%保留交集小于一定阈值的boundingbox
- end
-
- pick = pick(1:(counter-1));
- picks{iS-4} = pick;%保留每一类的boundingbox
- end