注:借鉴整理,仅供自学,侵删
越来越难懂喽,先附上两个博客链接吧,后面看完视频或者代码后再来总结
- 图片传入backbone主干特征提取网络,获得共享特征层。
- 共享特征层一方面经过RPN网络,进行一次结果为9×4的卷积(获得anchor的调整参数)一次结果为9×2的卷积(是否包含物体,序号为0的内容大表示不包含物体,序号为1的内容为包含物体的概率)。然后进行解码,获得建议框,对建议框进行处理(防止过小和超出边缘)和筛选(保留分类得分较高的一些建议框,如前3000个,然后NMS操作,防止一定区域内框框较多,再一次根据得分筛选,如前300个)
- 另一方面共享特征层根据建议框截取ROI区域,并rezize变成同一尺寸。
(共享特征层[1,1024,38,38],建议框[300,4],ROIpooling[300,1024,14,14])
最后再进行回归预测和分类预测(如resnet的第五次压缩操作,压缩完后进行一个平均池化,再进行一个Flatten,最后分别进行一个num_classes的全连接和(num_classes)x4全连接,获得(300,num_classes)和(300,num_classes*4))。 - RPN网络损失:
- ROI网络损失:
建议框就是ROI的先验框
根据建议框对共享特征层截取,不是截取的某一网格点,是根据调整后的anchor(即建议框)框选共享特征层区域,然后再roipooling
变成同一尺寸