【论文阅读基础知识整理】区域建议网络RPN
1.RPN的输入与输出
在阅读论文的过程中,网络结构图是最重要的内容之一。而要搞清楚网络结构图,得清楚其输入与输出。
RPN的输入: 经过特征提取网络得到的特征图(feature map)。
RPN的输出: 在原图上我们要获得的是候选框,候选框通过框中有无物体,坐标等数据进行表示。(输出即为这些数据)
2.RPN网络结构的介绍
这张图很清楚的展示了RPN的网络结构,可以看到一开始的输入是特征图(feature map),最后输出为得分(score)和坐标(coordinates)。
feature map通过sliding window(3x3的卷积)得到一个256 x (W x H)的向量,可以理解为有W x H个256维的向量,然后我们对每一个256维的向量分别进行两次1x1的卷积得到2 x (W x H)和4 x (W x H)的特征图,可以理解为这两个特征图中包含了WxH个结构,每个结果包含了两个分数(物体在或不在候选框的概率),四个坐标(x,y,w,h)。
3.RPN核心:Anchor
anchor也叫锚点,这里有个很重要的细节anchor对应的是原始图而不是特征图。
从上图看,可以这么理解,在特征图中的每个像素点映射到原图就是一个框。例如原始图的W与特征图的W比例为8:1,则特征图中的一个像素点映射到原始图中就是一个8x8的框。然后我们将这个8x8的框的中心点或者右上角的点(这里在代码中可以自己设置)作为anchor锚点。
获得anchor后,以anchor为中心得到9个基本候选框(三种尺度,三种比例尺),这里的9也对应了RPN结构图中的k。所以最后可以获得9xWxH个候选框遍布整个原始图,每个候选框又包含了6个信息(框中有无物体的得分,以及候选框的四个坐标),RPN网络结构图中每个256维向量可以视作一个像素点,映射到原图得到9个候选框(18(2x9)个分数,36(4x9)个坐标)。
得到候选框后,通过与ground truth的IOU进行正负样本的分类,以及NMS等操作进行候选框的保留,回归出准确的候选区域。(这部分不详细解释)