目标检测是计算机视觉领域中的核心任务。Open Images Dataset V5(OIDV5)是目前规模最大的目标检测公开数据集[1]。基于飞桨(PaddlePaddle)的PaddleDetection目标模型库[2],百度研发了大规模图像目标检测模型MSF-DET (Multi-Strategy Fused Detection framework),是Google举办的Open Images Dataset V5 (OIDV5) 2019目标检测比赛中的最好单模型,并且在计算机视觉领域的顶级学术会议ICCV 2019上进行技术分享。
近日,飞桨开源了比赛中使用的MSF-DET,助力大规模图像目标检测算法的研究探索和落地应用。
Google AI Open Images 2019比赛地址:
https://www.kaggle.com/c/open-images-2019-object-detection/
GitHub地址:
https://github.com/PaddlePaddle/PaddleDetection/blob/master/docs/OIDV5_BASELINE_MODEL.md
技术报告论文地址:
https://arxiv.org/pdf/1911.07171.pdf
01
比赛介绍
Google AI Open Images 2019是Google在2019年举办的大规模目标检测比赛,数据集为Open Images Dataset V5数据集(OIDV5)。OIDV5训练集包含170万张图像,覆盖500个类别,有超过1400万个标注的检测框,是目前已知的最大的目标检测开源数据集,检测图像和标注边框示例图如下图所示。
OIDV5的类别不均衡的现象比较严重[3],有些类别,如Clothing, Flower等,包含上百万个标注边框,而像Hair Dryer等类别仅包含上百个标注边框。不同类别的标注框数量如下图所示,这也造成了模型训练难以收敛的问题。
02
MSF-DET模型结构
该模型融合了当前较优的目标检测方法,包括Cascade RCNN[4], Feature Pyramid Networks[5], Deformable ConvNets V2[6],Non-local Networks[7],以ResNet200-vd[8]作为骨干网络, 模型结构如下。