ROI Pooling和ROI Align都是用来将任意尺度的feature转换为同一尺度的feature。
用RPN生成的bbox的尺度不同,需要将不同尺度的feature送到一个固定尺度的全连接层进行操作。
ROI Pooling
思想:
利用区域均分池化的操作,将任意大小的feature map转换为同一尺度。
上图中对于任意feature map,进行4x4的区域均分,并对每个区域进行max pooling操作,得到4x4的特征向量;再进行2x2,1x1的区域均分和max pooling操作得到2x2,1x1的特征向量,并将这些向量连接起来,得到固定长度的特征向量。
缺点:
由于像素点是离散的,bbox的位置必须为整数的像素点,因此造成误差。
主要存在两处误差:
- RPN是在原图上生成候选框的,由于经过backbone网络和FPN网络得到的feature map的尺寸与原图不同,在框的映射过程中,会存在小数&#