非极大值抑制(Non-maximum suppression)在物体检测领域的应用

最近在一个项目,需要用到非极大值抑制,找了很长时间没有找到非极大值抑制在物体检测方面的的详细解释,最后只有翻阅相关的代码来理解。

一、Nms主要目的

          在物体检测非极大值抑制应用十分广泛,主要目的是为了消除多余的框,找到最佳的物体检测的位置。


如上图中:虽然几个框都检测到了人脸,但是我不需要这么多的框,我需要找到一个最能表达人脸的框。下图汽车检测也是同样的原理。





二、原理

  非极大值抑制,顾名思义就是把非极大值过滤掉(抑制)。下面我就R-CNN或者SPP_net中的matlab源码来进行解释。

function picks = nms_multiclass(boxes, overlap)
%%boxes为一个m*n的矩阵,其中m为boundingbox的个数,n的前4列为每个boundingbox的坐标,格式为

%%(x1,y1,x2,y2);第5:n列为每一类的置信度。overlap为设定值,0.3,0.5 .....

x1 = boxes(:,1);%所有boundingbox的x1坐标
y1 = boxes(:,2);%所有boundingbox的y1坐标
x2 = boxes(:,3);%所有boundingbox的x2坐标
y2 = boxes(:,4);%所有boundingbox的y2坐标


area = (x2-x1+1) .* (y2-y1+1); %每个%所有boundingbox的面积


picks = cell(size(boxes, 2)-4, 1);%为每一类预定义一个将要保留的cell
for iS = 5:size(boxes, 2)%每一类单独进行
    s = boxes(:,iS);
    [~, I] = sort(s);%置信度从低到高排序


    pick = s*0;
    counter = 1;
    while ~isempty(I)
      last = length(I);
      i = I(last);  
      pick(counter) = i;%无条件保留每类得分最高的boundingbox
      counter = counter + 1;

      xx1 = max(x1(i), x1(I(1:last-1)));
      yy1 = max(y1(i), y1(I(1:last-1)));
      xx2 = min(x2(i), x2(I(1:last-1)));
      yy2 = min(y2(i), y2(I(1:last-1)));


      w = max(0.0, xx2-xx1+1);
      h = max(0.0, yy2-yy1+1);


      inter = w.*h;
      o = inter ./ (area(i) + area(I(1:last-1)) - inter);%计算得分最高的那个boundingbox和其余的boundingbox的交集面积


      I = I(o<=overlap);%保留交集小于一定阈值的boundingbox
    end

    pick = pick(1:(counter-1));
    picks{iS-4} = pick;%保留每一类的boundingbox
end

     

图像边缘检测非极大值抑制求解释

06-09

请看这段代码rn// 如果当前象素的梯度幅度为 0,则不是边界点rnif(pnMag[nPos] == 0 )rnrnpUncheckRst[nPos] = 0 ;rnrnelsernrndTmp = pnMag[nPos] ;rngx = pnGradX[nPos] ; // 水平方向偏导数rngy = pnGradY[nPos] ; // 垂直方向偏导数rnif (abs(gy) > abs(gx))rnrnweight = fabs(gx)/fabs(gy); // 计算插值的比例rng2 = pnMag[nPos-imageWidth] ;rng4 = pnMag[nPos+imageWidth] ;rn// 如果两个方向的偏导数的符号相同rn// C 是当前象素,与 g1-g4 的位置关系为:rn// g1 g2rn// Crn// g4 g3rnif (gx*gy > 0)rnrng1 = pnMag[nPos-imageWidth-1] ;rng3 = pnMag[nPos+imageWidth+1] ;rnrn// 如果两个方向的偏导数的符号相反rn// C 是当前象素,与 g1-g4 的位置关系为:rn// g2 g1rn// Crn// g3 g4rnelsernrng1 = pnMag[nPos-imageWidth+1] ;rng3 = pnMag[nPos+imageWidth-1] ;rnrnrnelsernrnweight = fabs(gy)/fabs(gx);rng2 = pnMag[nPos+1] ;rng4 = pnMag[nPos-1] ;rn// 如果两个方向的偏导数的符号相同rn// C 是当前象素,与 g1-g4 的位置关系为:rn// g3rn// g4 C g2rn// g1rnif (gx*gy > 0)rnrng1 = pnMag[nPos+imageWidth+1] ;rng3 = pnMag[nPos-imageWidth-1] ;rnrn// 如果两个方向的偏导数的符号相反rn// C 是当前象素,与 g1-g4 的位置关系为:rn// g1rn// g4 C g2rn// g3rnelsernrng1 = pnMag[nPos-imageWidth+1] ;rng3 = pnMag[nPos+imageWidth-1] ;rnrnrn// 下面利用 g1-g4 对梯度进行插值rnrndTmp1 = weight*g1 + (1-weight)*g2 ;rndTmp2 = weight*g3 + (1-weight)*g4 ;rn// 当前象素的梯度是局部的最大值rn// 该点可能是个边界点rnif(dTmp>=dTmp1 && dTmp>=dTmp2)rnrnpUncheckRst[nPos] = 128 ;rnrnelsernrn// 不可能是边界点rnpUncheckRst[nPos] = 0 ;rnrnrnrnrnrnrn小弟有以下几个问题:(1) 插值是何意?为啥取g1,g2为一组,g3,g4为一组计算插值?rn (2) 原理上是比较3*3矩阵内相邻像素点是不是最大值,他为何比较g1,g2,g3,g4就完事了rn (3) 为何要分X,Y方向导数谁大两种情况比较

没有更多推荐了,返回首页

私密
私密原因:
请选择设置私密原因
  • 广告
  • 抄袭
  • 版权
  • 政治
  • 色情
  • 无意义
  • 其他
其他原因:
120
出错啦
系统繁忙,请稍后再试