这里写目录标题
算法流程
-
将图像输入网络得到相应的特征图
-
对于特征图上的每个3*3的滑动窗口,计算出滑动窗口中心点对应的原始图像上的点,以该点作为中心点生成k个anchor boxes
-
对滑动窗口使用RPN结构获得边界框回归参数,将anchorbox转成候选框(proposal),将候选框投影到特征图上,获得相应的特征矩阵
-
将特征矩阵经过ROI Pooling层缩放到7*7的特征图,经过全连接层得到预测结果
网络结构
知识点
anchor boxes
Region Proposal Network
对于特征图上每一个滑动窗口中心点生成的9个anchor boxes,RPN输出由每个anchor的背景前景概率cls和边界框回归参数reg,cls中有29个参数,reg中有49个参数。
感受野
以ZF作为骨干网络,特征图中33的滑动窗口在原图中的感受野大小为171
以VGG作为骨干网络,特征图中33的滑动窗口在原图中的感受野大小为228
损失函数
RPN Multi-task loss
- 分类损失
- 边界框回归损失
Fast R-CNN Multi-task loss
与Fast R-CNN相同