1、Introduction
一个RPN是一个全卷积网络同时预测每个位置的对象分数和对象边界。On top of these conv features(除了这些卷积特征),我们建立一个RPNs通过增加两个额外的卷积层,一个是编码每个卷积图的位置转换成一个短的特征向量(例如256维),另一个在每一个卷积图的位置,输出一个目标分数和回归k个(k=9)区域建议框参数化坐标(坐标偏移量)和不同的尺度和比率相关。
这个方案迅速收敛通过产生统一RPNs和Fast R-CNN网络, 两个任务输入为一个共享卷积层Feature Map,如下图来自于https://zhuanlan.zhihu.com/p/31426458
3、Region Proposal Networks
一个RPN利用一张任意尺寸的图片作为输入,输出一系列的目标建议框,每个框有一个目标分数。通过在Feautere Map滑动窗口生成区域建议框
Translation-Invariant Anchors(转移传输不变性,多尺度输入)
每个滑动窗口位置预测k个建议框,cls有2k个分数,2对应前景和背景,reg有4k个输出,对应k个框的坐标。
为了解决多尺度问题,学习k个边界框回归,不分享权重,保持预测框的多种尺寸。
A Loss Function for learning region proposals
正样本,负样本,其他anchors不参与训练。
多任务损失函数:(1)
(2)
(3)
(1)分类加损失,分类256一个min-batch,一张图产生2400个anchors,=2400,归一化后=10,(2)中R为smoothL1损失函数(3),分类损失函数为逻辑回归,pi为预测值,pi*为真实标签,正样本为1,负样本为0,回归损失函数中当为负样本pi*为0,ti是一个向量代表输出框的参数化坐标,ti*是GT框和正样本anchor对应的坐标值。
在回归任务中,将4个坐标参数化:
(4)
x,xa,x*,分别代表预测框,anchor框坐标值,GT框坐标,y,w,h也一样。所以回归网络输出的object框的偏移量,并非框的坐标值,通过回归校正框的坐标。