1.首先通过几个特征提取网络得到特征图
2.然后通过RPN的第一条路(分类)得到有物体的候选框,第二条路(回归)是得到候选框与真实框的偏移。(候选框的得到是通过对特征图每个像素的9个锚框筛选出来的)
3.将得到候选框和未RPN处理过的原始特征图输入ROI,目的就是将候选框对应的(映射到的)特征图的局部区域摘出来,进行ROI得到候选框内的特征信息。(ROI就是把候选框中的局部特征图搞成长乘宽大小相同的特征块便于输入后面的分类回归网络)
4.将得到的特征图分别输入到分类网络预测类别,回归网络预测框的大小偏移(其中:边界框回归视为在前面得到的特征图块的基础上进一步优化得到更准确的预测框的过程,就相当于进一步精确预测框)
最后是在完全预测完成之后把预测框根据比例映射到原图