Faster R-CNN
Faster R-CNN[3] 作为目标检测的经典方法在现今很多实战项目和比赛中频频出现。其实,Faster R-CNN 就是在Fast R-CNN 的基础上构建一个小的网络,直接产生region proposal 来代替通过其他方法(如selective search)得到ROI。这个小型的网络被称为区域预测网络(Region Proposal Network,RPN)。Faster R-CNN 的训练流程如图2-10 所示,其中的RPN 是关键,其余流程基本和Fast R-CNN 一致。
RPN 的思想是构建一个小的全卷积网络,对于任意大小的图片,输出ROI 的具体位置以及该ROI 是否是物体。RPN 网络在卷积神经网的最后一个特征层上滑动。
接下来我们对着图2-11 来进一步解释RPN 网络。图2-11(a)中最下面灰色的网格表示卷积神经网络的特征层,红框表示RPN 网络的输入,其大小为3×3,而后连接到256 维的一个低维向量。这3×3 的窗口滑动经过整个特征层,并且每次计算都将经过这256 维的向量并最终输出2 个结果