NMS定义
- 非极大值抑制(Non-Maximum Suppression,NMS),即抑制不是极大值的元素,可以理解为局部最大搜索。这个局部代表的是一个邻域,邻域有两个参数可变,一是邻域的维数,二是邻域的大小
NMS具体的方法描述(Selective Search Warp)
假设有下面一张图
为了定位一个车辆,算法找出了一堆的方框,我们需要判别哪些矩形框是没用的。非极大值抑制的方法是:先假设有6个矩形框,根据分类器的类别分类概率做排序,假设从小到大属于车辆的概率 分别为A、B、C、D、E、F。
- 从最大概率矩形框F开始,分别判断A~E与F的重叠度IOU是否大于某个设定的阈值
- 假设B、D与F的重叠度超过阈值,那么就扔掉B、D(因为重复了);并标记第一个矩形框F,是我们保留下来的。
- 从剩下的矩形框A、C、E中,选择概率最大的E,然后判断E与A、C的重叠度,重叠度大于一定的阈值,那么就扔掉;并标记E是我们保留下来的第二个矩形框
就这样一直重复,找到所有被保留下来的矩形框。
NMS流程图演示
为何要引入 ROI Pooling?
- 实时性:产生大量的region proposals 会导致performance problems,很难达到实时目标检测。
- 保持输出大小一致,且不失真:对于传统的CNN(如AlexNet和VGG),当网络训练好后输入的图像尺寸必须是固定值,同时网络输出也是固定大小的vector or matrix。如果输入图像大小不定,这个问题就变得比较麻烦
- 在处理速度方面是suboptimal。
- 无法做到end-to-end training。
ROI pooling具体操作如下
- 根据输入image,将ROI映射到feature map对应位置;
- 将映射后的区域划分为相同大小的sections(sections数量与输出的维度相同);
- 对每个sections进行max pooling操作;
- 注意最后的输出的大小已经确定下来了,即pooled_w x pooled_h固定大小
- 假设我们有8*8大小的feature map,一个ROI,我们的固定大小设置为2*2
- 固定大小的feature map如下
- 将region proposal投影到对应的位置上
- 将其划分为(2*2)个sections(因为输出大小为2*2):可以看到,划分是尽可能等分划分的
- 对划分后的section做max pooling,可以得到
-