文 / Jordi Pont-Tuset,研究员,Google Research
在许多方面,Open Images 都可堪称为最大的标注图像数据集,可为计算机视觉任务训练最新深度卷积神经网络。去年 5 月发布的第 5 版 Open Images 数据集中有 900 万张有标注图像(含 3600 万个图像级标签、1580 万个边界框,280 万个实例分割以及 39.1 万个视觉关系)。该数据集本身以及围绕它展开的 Open Images 挑战赛,共同推动了物体检测、实例分割和视觉关系检测领域取得了最新进展。
Open Images V5 采用如下标注形式:图像级标签、边界框、实例分割和视觉关系。图像来源:1969 Camaro RS/SS 由 D. Miller 拍摄、房屋照片由 anita kluska 拍摄、Calico 猫咪咖啡馆新宿店由 Ari Helminen 拍摄、Radiofiera - 蒙泰基奥马焦雷 Villa Cordellina Lombardi (VI) - agosto 2010 由 Andrea Sartorati 拍摄。所有图像的使用均遵循 CC BY 2.0 许可
今天,我们宣布 Open Images V6 已正式发布,此版本通过增加大量的视觉关系(例如“狗抓飞盘”)、人类动作标注(例如“女子跳起”)和图像级标签(例如“佩斯利”)大幅扩展了 Open Images 数据集的标注范围。
值得注意的是,新版本还添加了 局部叙事标注 (localized narrativ