CVPR 2019 没有出现像Faster RCNN,YOLO这种开创性的工作,基于现有方案和框架的改进为主,技术进步着实有些缓慢,或许也代表方案逐步趋于成熟。
本文重点介绍如下几个改进方法:GA-RPN GIOU FSAF Mask Score RCNN
1. GA-RPN
GA-RPN由港中文、商汤和亚马逊联合提出,COCO Challenge 2018 检测任务,在极高的 baseline 上涨了1个点。
论文:Region Proposal by Guided Anchoring【paper】
先来讲候选框生成,传统的Selective Search方法提取像素一致区域,改进的EdgeBoxes利用边缘特征闭合,可以认为具有这种通用特征的区域是最有可能存在目标的区域。
这种传统方法的缺点是速度慢,很难整合到CNN网络,于是Fatser-RCNN通过暴力的 滑窗机制实现Candidate选取,也就是RPN,参考:https://blog.csdn.net/linolzhang/article/details/54344350
候选框选取机制很大程度上代表了最终检测效果的好坏,无效候选框对应大量没有价值的负样本。
- 对于 one-stage 来讲,可以通过 focal loss 一定程度上解决采样不均衡的问题,但的确只是一定程度;
- 对于 two-stage方法来讲,RPN机制保证了比 one-stage 更好的效果,3×3的Anchor 包含了大量尺度、ratio不合理的样本,虽然按照1:3的比例做样本过滤,但通常基于随机策略或按照一定的简单规则,筛选能力有限。
思想其实很简单,很多人都能想的到,理想的 Anchor 可以通过特征语义来辅助生成,也就是接下来要讲的 Guided Anchoring ,先看框架图(原文):
框架整体采用了特征金字塔,处理不同尺度的问题。右侧的 Anchor 生成过程(蓝色框),输入是一张特征图Fi,输出是调整后的特征图 Fi'。
Anchor生成(对应红框)借鉴了Anchor-Free的思想,能生成任意尺寸的Candidate,改进的思路是 将Box生成过程分成两部分,中心点生成 和 尺寸生成,中心点对应1个 Channel 特征图(理解为显著性区域),尺寸对应2个Channel的特征图,实现两个不同度量维度的解耦。
生成流程描述: