Faster R-CNN使用RPN(Region Proposal Network)算法代替原来的Selective Search方法产生候选框(RPN层放在最后一个卷积层的后面),且产生候选框的CNN网络和目标检测的CNN网络是同一个CNN网络。这使得候选框的数目从原有的约2000个减少为300个,且建议框的质量也有本质的提高。
Faster R-CNN的结构主要分为三大部分:
第一部分是共享的卷积层-backbone,第二部分是候选区域生成网络-RPN,第三部分是对候选区域进行分类的网络-classifier。RPN与classifier部分均对目标框有修正。classifier部分就是Fast R-CNN结构。
前面的CNN网络不一定要是VGG,也可以用5层CNN网络的ZFNet。
RPN层(Region Proposal Network,区域生成网络 ):
Anchor:
Anchor实际上指的是预先设置好长宽比与面积的候选框。但是这种候选框产生的机制与Selective Search算法不一样。在论文中,作者为每一个位置生成9种anchor,包含三种面积(128×128,256×256,512×512),每种面积又包含三种长宽比(1:1,1:2,2:1)。
原始图像先进入CNN网络后在最后一个卷积层(RPN层的前一个卷积层)输出了256个通道的fea