1、简介
官网:Open Images V7 - Description
Open Images是由谷歌发布的一个开源图片数据集,在2022年10月份发布了最新的V7版本。这个版本的数据集包含了900多万张图片,都有类别标记。其中190多万张图片有非常精细的标注:bounding boxes, object segmentations, visual relationships, localized narratives, point-level labels, and image-level labels.
具体来说,这份数据集包括:
600个类上的15,851,536个boxes
对350个类进行2,785,498个实例分割
3,284,280个关于1,466个关系的关系注释
675,155个本地化的叙述
对5,827个类的66,391,027个point级别注释
对20,638个类别的61,404,966个图像级标签
扩展数据中 - 478,000张众包图像,包含6,000多个类别
本数据集的特点如下:
- 它包含了190万张图片上600个物体类别的16M个边界框,使其成为现有最大的物体位置注释数据集。这些方框主要是由专业注释者手工绘制的,以确保准确性和一致性。这些图像非常多样化,通常包含有多个物体的复杂场景(平均每张图像8.3个)。
- 开放图像还提供了视觉关系注释,表明特定关系的物体对(如 "弹吉他的女人"、"桌上的啤酒")、物体属性(如 "桌子是木制的")和人类行为(如 "女人在跳跃")。它总共有来自1,466个不同关系三元组的330个注释。
- 在V5中,我们为350个类中的280万个对象实例添加了分割掩码。分割掩码标志着物体的轮廓,它以更高的细节水平来描述其空间范围。
- 在V6中,我们增加了675k个本地化叙述:对图像的多模态描述,包括同步的语音、文字和在被描述物体上的鼠标痕迹。(请注意,我们最初在V6中只在培训中推出了本地化的叙述,但从2020年7月起,我们也有验证和测试的内容)。
- 在V7中,我们在140万张图片上增加了6640万个点级标签,覆盖了5827个类别。这些标签提供了稀疏的像素级定位,适用于零/少量照片的语义分割训练和评估。
- 最后,该数据集被添加了6140万个图像级别的标签,涵盖20638个类别。
2、数据集扩展
Open Images Extended是一个包含额外图像和/或标注的数据集合,用于补充核心Open Images数据集。您可以在Extended部分了解更多信息。本页面的其余部分描述了核心Open Images数据集,不包括扩展内容
3、数据结构
该数据集被划分为训练集(包含9,011,219张图像)、验证集(包含41,620张图像)和测试集(包含125,436张图像)。这些图像均带有图像级别的标签、物体边界框、物体分割掩模、视觉关系以及下文所述的局部化叙事注释。
1) Image-level labels
表1显示了数据集所有图像级标签组成的概览。所有图像都具有由类似于Google Cloud Vision API的计算机视觉模型自动生成的机器生成的图像级标签。这些自动生成的标签存在相当大的误报率。此外,验证集和测试集,以及部分训练集具有经人工验证的图像级标签。大部分验证是由Google内部标注员完成的。一小