本文主要关注分类,检测和分割等任务训练数据的解耦,非常有趣。
R-FCN-3000
R-FCN-3000 obtains an mAP of 34.9% on the ImageNet detection dataset and outperforms YOLO 9000 by 18% while processing 30 images per second.
主要思路如上图,第一行将原来rfcn中的类别数降低(甚至降低到1变为检测是否存在物体)。【ps: Light-Head R-CNN也降低了这里的维度】。
第二行对roi进行细粒度分类。
思考: 是不是可以固定训练好的第一行,然后拿没有bounding box标注的图片来训练第二行的细粒度分类?
Segment Every Thing
基于mask rcnn。思路也很简单,提出通过box branch的bounding box weights来迁移预测mask weights。只要求部分训练数据拥有mask的标注。
Intuitively, the MLP mask predictor may better capture the ‘gist’ of an object while the FCN mask predictor may better capture the details (such as the object boundary).
另外讨论了Stage-wise training和End-to-end joint training的优缺点。
YOLO9000