对于目标检测任务,输入图像通常都要经历3个步骤,Backbone + Head + Postprocess(NMS),目标检测算法的优化,通常也是围绕着这3个方面展开的。针对Backbone的优化有DetNet,针对Head的优化有Light head R-CNN,针对Postprocess的优化有soft nms和softer nms。值得一提的是,除了soft nms,其余的几篇文章都是face ++出品,不愧是多届coco目标检测竞赛的冠军,确实厉害。本文接下来将只介绍Light head R-CNN,大家如果对其它文章感兴趣,也可以直接去读原文,一定会对目标检测任务有更多的感悟。
1 动机
对于two-stage的目标检测算法,常见的有Faster R-CNN和R-FCN。当图像中的proposals个数增加时,Faster R-CNN的计算量会迅速增加,R-FCN虽然解决了Faster R-CNN中存在的重复计算问题,但是backbone最终的特征图channels较大,导致计算量也比较大。
Light Head R-CNN是Faster R-CNN和R-FCN的结合体,主要的改进点包括2点,(1)per-Roi RCNN subnetwork计算量尽可能多地共享;(2)整个目标检测网络的head部分channels个数减少。
2 网络结构
网络结构如下图,同R-FCN相比,它有两个不同的地方,(1)使用large