Faster RCNN的理解和资料收集_尚学堂 faster rcnn资料-CSDN博客

本文链接：https://blog.csdn.net/sakurasakura1996/article/details/103690206

Faster RCNN的理解和资料收集

资源收集

知乎一文看懂Faster RCNN
Bilibili唐宇迪老师关于tensorflow下faster rcnn的论文解读和代码解析
 Faster RCNN论文中英翻译

自己的理解

在这里插入图片描述
对于理解帮助比较大的是B站视频和这篇知乎文章。
Faster RCNN先用一个VGG的卷积网络来直接提取整张图片的特征（当然如图所示调节了尺寸），这对比RCNN来说已经省去了太多代价消耗，RCNN采用SS方法先去挑选上千个region proposal，然后每个region还单独搞一个CNN来提取特征，实在是慢爆了。
这个VGG卷积网络中有卷积层、relu层和pooling层，因为在外圈填0（具体叫什么不记得了），所以卷积层不会缩放图片，relu也不会，只有pooling一次才会将feature map长宽各缩小一半（应该一旦进入卷积网络，就不叫图片了，所以我这里就把中间的结果和最后的结果都叫做feature map），因为VGG有四个pooling层，所以最后的feature map尺寸相比输入网络的图片大小，长宽都为input的1/16，面积就是1/256了。然后这里有一个注意的点，别人都提到了的就是，我们可以根据卷积网络输出的feature map来还原其中每个值所覆盖的感受野（应该是这样的意思奥）。
以上部分还是比较容易理解，Faster RCNN优于其他方法的重要一点就在接下来的这个RPN网络（Region Proposal Networks）。这部分我感觉我理解的还是不太好。
在这里插入图片描述
这部分的理解，还是直接引用知乎上的那篇比较好的分享吧，说的真好，把我不太懂的讲的很清晰。
https://zhuanlan.zhihu.com/p/31426458