1、faster R_CNN流程步骤
1)将图像输入网络得到相应的特征图
2)使用RPN结构生成候选框,将RPN生成的候选框投影到特征图上得到相应的特征矩阵
3)将每个矩阵通过ROI pooling层放缩到7x7大小的特征图,接着将特征图展平通过一系列全连接层得到预测结果。
2、RPN
cls layer预测的是前景和背景的概率,reg layer预测的是中心点的x,y以及w,h。
对于特征图上的每个3x3的滑动窗口,计算出滑动窗口中心点对应原始图像上的中心点,计算出k个anchor box(注意和proposal的区别)。
对于一张1000x600x3的图像,大约有60x40x9(20k)个anchor,忽略跨越边界的anchor以后,剩下约6k个anchor。对于RPN生成的候选框之间存在大量的重叠,基于候选框的cls得分,采用非极大值抑制,IOU设为0.7,这样每张图片只剩2k个候选框。
3、RPN Multi-task Loss
4、Fast R_CNN Multi-task Loss
5、Faster R_CNN训练
现在:
直接采用RPN Loss+Fast R_CNN Loss联合训练的方法
原论文:
6、Faster R_CNN框架