今天跟大家分享的FoveaBox则是该方向最新的成果,针对的是通用目标检测领域,算法方案简单,结果达到state-of-the-art,代码亦将开源,方便后续其他学者跟进,发展空间极大。
算法思想
FoveaBox的动机来自人眼的中央凹:视野中心(物体)具有最高的视力。
(物体的位置信息能够从中心反应出来——CV君的理解)
下图展示了FoveaBox目标检测的基本思想,对于可能存在目标的每个输出空间位置,FoveaBox直接预测所有目标类别存在的置信度和边界框。
FoveaBox是在RetinaNet目标检测网络基础上做的改进,我们先来看看RetinaNet的网络架构。
如下图,RetinaNet利用了特征金字塔网络检测目标,对于金字塔的每一层,都后接class + box 子网络。最右侧上半部分为class子网络,下半部分为box子网络。
下图是FoveaBox网络的改进,class 子网络计算的是每个输出位置分别存在不同类别目标的置信度,box子网络则是直接计算每个输出位置的与类别无关的目标包围框(左上和右下顶点坐标)。