RPN的作用在于较为准确的选择前300个推荐框,前2篇论(RCNN,Fast-RCNN)用的是Selective Search方法, 贪婪地合并基于低层次特征的像素,产生2000个推荐框,效率低。本文主要讲解RPN网络层及其损失函数,遇到过的坑和疑惑的地方在这里记录一下,便于今后回顾。涉及到的内容过多,请参考:
Faster-RCNN论文地址
1、RPN模型
要点1:在每个滑动窗口的中心(经过3x3卷积得到的点,该卷积层不改变feature map的大小,只是将周围的信息融合到中心点上,该中心点的可视野为3x3大小的VGG/ZF特征)预测9种不同尺度大小的锚框(anchors)。这里用的是ZF的feature map 是256-d,而VGG的feature map 是512-d。
vgg_kernel = 512 #如何实现anysize input
f_map_tile = Input(shape=(None,None,512)) #out: 1x1x512
convolution_3x3 = Conv2D(
filters=512, #vgg 512, zf 256
kernel_size=(