关于R-FCN的几个问题

最新推荐文章于 2020-12-24 11:48:57 发布

qq_40132185

最新推荐文章于 2020-12-24 11:48:57 发布

阅读量135

点赞数

文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/qq_40132185/article/details/109724018

版权

流程：主网络是Resnet，然后经过卷积，得到新的特征图，然后有个并联分支，上面的分支将特征图输入到RPN（区域提取网络）中，进行检测框的分类和回归（一些卷积操作是针对整幅feature map的，只是在分类和回归时，操作的是检测框大小的feature map），下面的分支进行的是卷积操作，生成的feature map大小和输入一样，通道数是k^2*(C+1)，含义是对于每一个ROI，均匀划分为k*k个块（每个块大小的大小是w/k,h/k)，含义是如果ROI属于某一类，那么划分的每一个块都属于该类的某一部分，那么它对应的score map就会高。C+1是指前景类别C+背景类别数。RPN可以选出一些ROI，这些ROI在并联下面分支的位置是已知的。然后进行第二步的分类和回归：首先是分类，对于一个ROI，它的特征图channel是k^2(C+1),进行avg pooling，得到大小为k^2,channel数为C+1的特征图，然后对每一幅特征图中的元素进行add操作，得到1*（C+1)维数据，然后经过softmax进行分类。对于回归而言，童谣类似的操作，即并联分支得到的特征图channel是4k^2,最后回归得到4个值，即检测框的相关值。

Question 1：平移不变性和平移敏感性？

Anwser：平移不变性是指原图中的内容平移后，对深层网络的影响很小，这是分类网络所需要具有的性质（因为只需要检测有没有该类对象，而不需要判断对象在哪）。而目标检测对平移的敏感性体现在检测框回归任务中。

Question 2：R-FCN的平移敏感性体现在哪

Answer：通过position-sensitive score map来体现平移敏感性。

Question 3：检测速度快的原因：

Answer：faster R-CNN在进行目标检测的第二次分类和回归任务时，操作对象是单个ROI，假设最后选出的ROI个数是300个，那么需要对这300个ROI进行300次的全连接操作，耗时。而R-FCN就将对单个ROI的操作变成了对整幅feature map（ROI是从该feature map中提取的）进行操作，比满了重复计算（重复计算是指单个ROI之间可能有交集，那么faster r-cnn在第二阶段的分类和回归操作就存在了重复计算，这有点像rcnn和sppnet之间的区别，输入的是一部分图像还是一整幅图像）。对整幅feature map进行操作后，找到对应的ROI所在位置，在进行第二次的回归和分类，此时不涉及任何可训练参数的操作。

参考链接：https://www.jianshu.com/p/409fd61db9db

https://zhuanlan.zhihu.com/p/30867916