Open Images V7 数据集介绍

Open Images V7是谷歌发布的大型开源图像数据集,包含900万张图片,涵盖600个类别,提供边界框、对象分割、视觉关系等多种标注。数据集特色在于丰富的物体定位注释和多样化的视觉关系描述,适用于物体检测、语义分割等任务。数据集分为训练、验证和测试集,包含图像级、边界框、分割掩模、关系注释、本地化叙述和点级标签等多种注释类型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、简介

官网:Open Images V7 - Description

Open Images是由谷歌发布的一个开源图片数据集,在2022年10月份发布了最新的V7版本。这个版本的数据集包含了900多万张图片,都有类别标记。其中190多万张图片有非常精细的标注:bounding boxes, object segmentations, visual relationships, localized narratives, point-level labels, and image-level labels. 

具体来说,这份数据集包括:

600个类上的15,851,536个boxes

对350个类进行2,785,498个实例分割

3,284,280个关于1,466个关系的关系注释

675,155个本地化的叙述

对5,827个类的66,391,027个point级别注释

对20,638个类别的61,404,966个图像级标签

扩展数据中 - 478,000张众包图像,包含6,000多个类别

本数据集的特点如下:

  • 它包含了190万张图片上600个物体类别的16M个边界框,使其成为现有最大的物体位置注释数据集。这些方框主要是由专业注释者手工绘制的,以确保准确性和一致性。这些图像非常多样化,通常包含有多个物体的复杂场景(平均每张图像8.3个)。
  • 开放图像还提供了视觉关系注释,表明特定关系的物体对(如 "弹吉他的女人"、"桌上的啤酒")、物体属性(如 "桌子是木制的")和人类行为(如 "女人在跳跃")。它总共有来自1,466个不同关系三元组的330个注释。
  • 在V5中,我们为350个类中的280万个对象实例添加了分割掩码。分割掩码标志着物体的轮廓,它以更高的细节水平来描述其空间范围。
  • 在V6中,我们增加了675k个本地化叙述:对图像的多模态描述,包括同步的语音、文字和在被描述物体上的鼠标痕迹。(请注意,我们最初在V6中只在培训中推出了本地化的叙述,但从2020年7月起,我们也有验证和测试的内容)。
  • 在V7中,我们在140万张图片上增加了6640万个点级标签,覆盖了5827个类别。这些标签提供了稀疏的像素级定位,适用于零/少量照片的语义分割训练和评估。
  • 最后,该数据集被添加了6140万个图像级别的标签,涵盖20638个类别。

2、数据集扩展

Open Images Extended是一个包含额外图像和/或标注的数据集合,用于补充核心Open Images数据集。您可以在Extended部分了解更多信息。本页面的其余部分描述了核心Open Images数据集,不包括扩展内容

3、数据结构

该数据集被划分为训练集(包含9,011,219张图像)、验证集(包含41,620张图像)和测试集(包含125,436张图像)。这些图像均带有图像级别的标签、物体边界框、物体分割掩模、视觉关系以及下文所述的局部化叙事注释。

1) Image-level labels

表1显示了数据集所有图像级标签组成的概览。所有图像都具有由类似于Google Cloud Vision API的计算机视觉模型自动生成的机器生成的图像级标签。这些自动生成的标签存在相当大的误报率。此外,验证集和测试集,以及部分训练集具有经人工验证的图像级标签。大部分验证是由Google内部标注员完成的。一小

### OpenImages 数据集介绍 OpenImages 是一个大规模多用途计算机视觉数据集,旨在支持广泛的机器学习研究和应用开发。此数据集涵盖了多种类型的标注信息,包括但不限于图像级别标签、物体边界框、物体分割掩码以及视觉关系描述等[^1]。 #### 数据集划分情况 整个数据集被细分为三个主要部分: - **训练集**:包含超过9百万张用于模型训练的高质量图片; - **验证集**:大约有4万张经过精心挑选并标记过的样本,用来评估算法性能; - **测试集**:约含12.5万余幅图象,专供最终评测之用[^2]。 每一张照片都附带详细的元数据记录,比如类别名称及其对应的置信度得分等额外信息。 #### 主要特征 对于目标检测任务而言,OpenImages 提供了详尽的对象实例边框位置文件(`train-annotations-bbox.csv`, `validation-annotations-bbox.csv`, 和 `test-annotations-bbox.csv`),它们分别对应于不同阶段的数据集合[^5]。此外,在最新版本中还增加了更多高级别的语义理解组件,如局部化叙述注解(Localization Narratives),这有助于提升模型对场景上下文的理解能力[^4]。 ### 使用方法概述 为了充分利用这一资源库开展科研工作或工程项目实践,建议按照以下方式操作: 加载所需工具包之后,可以通过官方API接口下载特定子集内的全部条目;也可以依据个人需求筛选感兴趣的主题领域,进而批量获取相关素材。下面给出一段Python代码片段作为示范,展示如何读取CSV格式的目标定位详情表单: ```python import pandas as pd # 加载训练集中对象实例边框的位置信息 bbox_train_df = pd.read_csv('path/to/train-annotations-bbox.csv') print(bbox_train_df.head()) ``` 通过上述手段能够快速上手处理海量多媒体资料,并为进一步探索深层次模式奠定坚实基础。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CV温故知新

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值