论文:R-FCN-3000 at 30fps: Decoupling Detection and Classification
链接:https://arxiv.org/abs/1712.01802
这篇是CVPR2018的文章,主要是成功将R-FCN算法(关于R-FCN算法的介绍可以看博客:R-FCN算法及Caffe代码详解)应用在检测类别较多的场景下。首先当初提出R-FCN算法的主要目的在于引入position-sensitive score map解决原来Faster RCNN中ROI的重复计算问题,有效提升速度。但是如果检测的类别数非常多(比如这里的3000类),那么直接用R-FCN算法的话速度是很慢的,瓶颈正是生成分类支路的position-sensitive score map时计算量非常大,因此这篇文章通过解耦分类支路的position-sensitive score map生成的过程(将原来的分类支路拆分成两条支路,而回归支路还是采用R-FCN的回归支路,这篇文章不做修改,这是因为增加检测类别数增加不影响回归支路的计算量),从而在保证速度(30FPS)的情况下将R-FCN的分类类别数延伸至3000类。
那么,为什么不能直接将R-FCN的检测类别扩充为3000类?R-FCN的网络结构可以看下面的Figure1,前面基于分类网络提取到特征,然后通过一个卷积层(卷积核数量为k^2(C+1)