原文参考:Fast R-CNN
Region of Interest, RoI 池化层的概念是最早在 Ross Girshick 的文章中提出,其功能是能够将映射在卷积特征图上的不同大小的 RoI,提取相同大小的特征图(feature map)。
在文章 Fast R-CNN 中,作者采用基于 ImageNet 数据集训练的三个网络作为 Fast R-CNN 的初始化网络结构。
- 初始化网络中具有5个最大池化层(max pooling layer),以及5到13层卷积层,在初始化网络时,将最后一层 max pooling 用 RoI pooling 进行替换,并且该池化层得到的特征图的大小 H×W 应该与之后的第一层全连接层的大小相匹配(例如,在 VGG16 网络中,H=W=7);
- 其次,将初始化网络中最后的全连接层采用两个网络结构(1个全连接层 + Softmax)进行替代,分别用于输出 RoI 中目标的类别和相应的拟合坐标(bounding box);
- 此外,将输入网络的数据,更改为若干图片以及每个图片中相应的 RoI(等同于 Region Proposal Network, RPN 中的 Proposal bounding boxes)。