目标检测1——RoI Pooling和RoI Align


欢迎访问个人网络日志🌹🌹知行空间🌹🌹


1 ROI

首先,何为ROIROIRegion of Interest的缩写,即感兴趣区域。在不同的情况下用户关心的图像区域是不同的,因此ROI所指含义也不同。对于物体检测的目标ROIROI就是要找到对象在图像中Bounding Box区域。如

在这里插入图片描述

对于物体检测的目标,我们关心的是对象是人,则上图中红色的框中人的框选区域就是ROI

而在Fast RCNN中,ROI Pooling作用在backbone和检测头之间,其关心的是物体检测框的候选框proposal boxes,而非真正的target boxes,对proposal boxes经过置信度评分过滤和极大值抑制后才能生成target boxes。因此,此时的ROI指的是候选框proposal boxes所指的区域。如下图,目标框是准确框出图中的两只狗狗,但通过selective searchRPN网络生成的proposal boxes如图中花花绿绿的框所时,ROI PoolingROI Align正是作用在这些proposal boxes所指的ROI上。

图片来源于https://d2l.ai/chapter_computer-vision/anchor.html
在这里插入图片描述

2.ROI Pooling

将深度学习用于目标检测,网络架构一般是分成Backbone基干网络用于提取图像特征,和检测头用来实现分类和检测框位置回归。2015年4月份微软的Ross Girshick发表的Fast RCNN论文中提出了ROI Pooling, 解决了模型固定大小输入的问题,提升了检测的性能,一起来看ROI Pooling到底是怎么回事。

ROI Pooling顾名思意,就是池化操作的一种,只不过这个池化操作是作用在ROI上面,而非整个图像区域。先看fast RCNN的整体架构,

图片来自fast RCNN 论文
在这里插入图片描述

图中Deep ConvNet是深度卷积网络,也就是backbone是用来提取特征得到feature map的,feature map就是对输入的图像经过层层卷积后得到的shape为NCHW的张量,其中feature map的宽高大小通常等于输入图像宽高除以stride,stride是输入图像经过卷积池化得到的feature map的缩放倍数,ROI Pooling正是紧跟在feature map后面,作用在feature map的池化操作。输入图像中红色的框是一个proposal box,这个proposal boxselective searchregion proposal network算法自动生成的ROI区域,还不是物体检测框bounding boxproposal boxes的尺度是相对于输入图像的,因此可根据stride参数,将其映射到feature map尺度上,也就是图中的ROI Projection。得到feature map和经过stride缩放投射到feature map上的proposal box后,就可以开始进行池化操作了。

在这里插入图片描述

从上图中可以看到ROI Pooling的全过程,绿色虚线框以外的部分是得到proposals并变换到feature map上的过程,绿色虚线框内是在1个通道上进行ROI Pooling的过程。ROI Pooling空间金字塔池化Spatial Pyramid Pooling一样,都是无论输出的WH大小,指定池化后输入结果的WH,据此自适应计算池化核的大小,然后在划分后的池化核范围内进行最大值池化或均值池化,如图中绿色框中所示。空间金字塔池化Spatial Pyramid Pooling是何凯明于2014年06月份在微软亚洲研究院时发表的论文Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition中提出的。ROI Pooling是作用在每一个proposal上的,假如是batch size=B, proposals的数量为N, 则ROI Pooling后的张量大小为, B × N × C × H r o i p o o l × W r o i p o o l B\times N \times C \times H_{roi pool} \times W_{roi pool} B×N×C×Hroipool×Wroipool在将proposals投射到feature map上时,计算结果很有可能是不能整除的,如图中21/32=0.625,这时选择近似取整的方法选定proposal对应的feature map对应的区域,如上图中将红色的框近似到蓝色框上,这里做了第一次量化取整,引入了误差。在计算自适应池化核大小时,遇到非整除的情况,这里对计算结果进行了向上取整和向下取整的近似,如8/3通过近似得到池化核区域的大小为3,3,2,这里做了第二次量化,引入了误差。

通过以上的说明,有可能依然没有说清除,说明白,最能描述一个算法本身的应该是代码实现,ROI Pooling的具体代码实现可以参考 github ROI Pooling

3.ROI Align

从上面介绍中可知ROI Pooling中有两处对计算结果取了近似,一次是在将proposal投射到feature map上时,对浮点数进行了近似取整,另外一次是在进行池化操作计算池化核的大小时也进行了近似取整。这对于分类问题影响不大,但对于检测问题因对检测框进行了近似,会影响检测的定位精度ROI Align也是一种池化操作,只不过其不对proposals映射和池化核大小做近似,而是使用浮点数计算,然后使用双线性插值再近似浮点数位置的值来做池化,比直接近似取整更加准确。ROI AlignHe KaiMingFast RCNN的原作者Ross Girshick一起在201703月份发表的论文Mask RCNN中的提出的,用于目标检测和实例分割。有个小插曲,2015年Ross Girshick发表Fast RCNN时,其署名单位是微软,2017年署名单位已经是FacebookFAIR了。

还以上图中狗的检测为例,这次直接使用feature map红色的框进行计算,而不再将其取整近似到蓝色框上。且在绿色框中的池化操作,池化核的大小也采用均分,而非近似的方法。其实现过程如下图:

在这里插入图片描述

ROI Align主要涉及到的是如何求浮点位置的feature map上的值,其确定是通过双线性插值来实现的,比ROI Pooling中的取整近似要更准确。关于双线性插值的介绍可参考(五)线性插值,ROI Align的代码实现可参考:

roi_align_cpu.cpp

其中计算线性插值的函数使用的方式是按邻近4个像素点对当前点贡献多少来决定的,也就是面积加权平均,可参考上面的线性插值介绍的文章。在计算坐标时

// 公式是(src+0.5)/(dst+0.5) = srcWidth/dstWidth,即中心点对齐
const T yy = start_y + ph * b_size_h + static_cast<T>(iy + 0.5f) * b_size_h / static_cast<T>(b_grid_h);
for (int ix = 0; ix < b_grid_w; ++ix) {
const T xx = start_x + pw * b_size_w + static_cast<T>(ix + 0.5f) * b_size_w / static_cast<T>(b_grid_w);
     T x = xx, y = yy;
     // situation 1: out of range
     if (y < -1.0 || y > h || x < -1.0 || x > w) {
          PreCalc<T> pc{0, 0, 0, 0, 0, 0, 0, 0};
          pre_calc[idx] = pc;
          idx += 1;
          continue;
     }
}

通过ROI PoolingROI Align后得到的张量的宽高同SPPNet,是固定的,因此其后可以跟全连接层用来实现,检测框类别的判断和更好的位置回归。


欢迎访问个人网络日志🌹🌹知行空间🌹🌹


参考资料

### 回答1: RoIPoolingRoIAlign 是两种用于在目标检测中处理 Region of Interest (RoI) 的方法。 RoIPooling 是一种将 RoI 区域采样为固定大小的特征图的方法,它通过对 RoI 区域内的像素进行 max pooling 来实现。 RoIAlign 是一种改进 RoIPooling 的方法,它通过对 RoI 区域内的像素进行双线性插值来精确定位像素位置,从而更准确地处理 RoI 区域的特征。 总的来说,RoIAlignRoIPooling 更精确,但是计算量更大。 ### 回答2: RoIPooling(Region of Interest Pooling)和RoIAlign(Region of Interest Align)是在目标检测领域中常用的两种处理特征图中感兴趣区域的方法。在 Faster RCNN、Mask RCNN、YOLO等流行的目标检测算法中,都用到了RoIPoolingRoIAlignRoIPooling将图像特征分为多个像素点,然后将感兴趣的区域划分成固定尺寸的子区域,每个子区域将其中的特征点聚合成一个值。这种聚合方式可以使得不同大小的感兴趣区域都可以映射为相同尺寸的特征区域,从而方便以相同尺寸进行后续处理。但是,RoIPooling采用了近似的方式来计算感兴趣区域中特征点的聚合值,可能导致特征点的位置偏移,从而降低了目标检测的精度。 RoIAlign通过双线性插值的方式计算感兴趣区域中每个特征点的值,能够更加准确地计算出感兴趣区域的特征,提高目标检测的精度。RoIAlign对于小目标和低分辨率的图像使用效果更好,但由于需要进行双线性插值,计算复杂度也更高,计算时间更长。 综上所述,RoIPooling虽然计算速度较快,但准确度相对较低,适用于更大的感兴趣区域。RoIAlign计算准确度更高,但计算时间更长,适用于更小的感兴趣区域。在实际应用中需要根据具体情况选择和平衡二者的使用。 ### 回答3: RoIPoolingRoIAlign是在物体检测领域中广泛使用的两种特征金字塔网络用于从卷积神经网络中提取感兴趣区域(Region of Interest)的技术。 RoIPoolingRoIAlign最初是在Faster R-CNN中提出的,Faster R-CNN是目前最优秀的物体检测算法之一。这两种方法都是为了解决R-CNN中存在的空间量化问题和边界偏移问题。 RoIPooling是在特征图中提取感兴趣区域时,使用划分区域(sub-region)的方法。将RoI区域内的像素均匀划分成一个固定大小的子区域,然后在每个子区域内选择最大的值作为该子区域的输出结果。然后将这些划分的子区域进行池化操作,最终形成特征向量。 但是RoIPooling的问题是对于感兴趣区域中边界部分的像素容易丢失,从而造成检测结果误差增加。为了解决这一问题,RoIAlign应运而生。 RoIAlignRoIPooling相比,最显著的改善是在划分子区域时,使用双线性插值法计算划分子区域内的特征值,避免了对子区域中像素的量化损失。另外,RoIAlign还使用了更为精细的采样技术,防止了积累误差的产生,更加准确地提取了感兴趣区域中的特征,从而提高了检测精度。 总之,RoIPoolingRoIAlign是在物体检测中提取感兴趣区域时常用的技术,通过划分子区域和采样技术来准确提取感兴趣区域内的特征,提高检测精度,是物体检测中不可或缺的技术手段。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值