本文是2015年发表的物体检测的经典top论文。
本文思路:
1、目的得到feature maps。先通过conv层+pooling层+relu层,可以是vgg,得到feature maps。
2、目的得到精确的proposals,提议建议图??,在feature maps上提取对应的图。在第一步基础上,先通过rpn生成region proposals。通过softmax判断anchors(9个框),是foreground还是background,再通过bounding box regression 进行修正是anchors,也就是进一步确定proposals。
3、目的是为了得到proposals feature maps,提取框的特征图,这一步是为了下面的分类做准备,也就是先得到框图在分类。这一步先通过上面得到的proposals,和roi pooling,提取proposals feature maps。
4、分类。用proposals feature maps和一开始的proposals判断类别。
下图是论文自带的检测架构图:
更细的如下:
由上图