(二)open image dataset v5 数据集解析

Subset with Bounding Boxes (600 classes), Object Segmentations, and Visual Relationships(包含边界框(600个类)、对象分割和可视关系的子集)

这些注释文件涵盖了600个box - able对象类,并覆盖了1,743,042个训练图像,其中我们注释了边界框、对象分割和视觉关系,以及完整的验证(41,620个图像)和测试(125,436个图像)集。

 

下载像素有问题吗?让我们知道。

警告:图8中的网站目前托管V4数据。但是,这个子集中的174万张图像在V5中没有变化,所以您可以从图8安全地下载它们。

 

Subset with Image-Level Labels (19,959 classes) 带有图像级标签的子集(19,959个类)

这些注释文件覆盖所有对象类。在训练集中,人类验证的标签跨度为6,287,678张,而机器生成的标签跨度为8,949,445张。
下面的图像 IDs 列出了所有具有人类验证标签的图像。
注释文件跨越了完整的验证(41620幅图像)和测试(125436幅图像)集。

 

Complete Open Images  完整的开放图片

完整的9178275张图片。

Open Images Extended

 

Data Formats

Bounding boxes

每一行定义一个边界框。

ImageID,Source,LabelName,Confidence,XMin,XMax,YMin,YMax,IsOccluded,IsTruncated,IsGroupOf,IsDepiction,IsInside
0001eeaf4aed83f9,xclick,/m/0cmf2,1,0.022673031,0.9642005,0.07103825,0.80054647,0,0,0,0,0
000595fe6fee6369,xclick,/m/02xwb,1,0.45655376,0.6097202,0.20399113,0.50554323,0,0,1,0,0
00075905539074f2,xclick,/m/04yx4,1,0.020477816,0.32935154,0.0956023,0.665392,0,0,0,1,0
000a1249af2bc5f0,xclick,/m/09j2d,1,0.56911767,0.99852943,0.0022172949,0.93569845,1,1,0,0,0
...

ImageID:这个框所在的图像。

Source:指示框是如何制作的:

  • xclick 是使用[1]中提供的方法手工绘制的框。
  • activemil 是使用增强版的方法[2]生成的框。这些是人类被证实是准确的IoU>0.7。

LabelName:此框所属对象类的 MID。

Confidence:一个虚值,总是1。

XMin, XMax, YMin, YMax:框的坐标,归一化图像坐标。XMin在[0,1]中,其中0是图像中最左边的像素,1是图像中最右边的像素。Y坐标从顶部像素(0)到底部像素(1)。

属性的定义如下:

IsOccluded:表示该对象被图像中的另一个对象遮挡。

IsTruncated:表示对象超出图像的边界。

IsGroupOf:表示框跨越一组对象(例如,花床或一群人)。我们要求注释器在超过5个实例的情况下使用此标记,这些实例彼此严重遮挡,并且具有物理上的接触。

isdescription:表示对象是一个描述(例如,对象的卡通或绘图,而不是真实的物理实例)。

IsInside:指从物体内部(如汽车内部或建筑物内部)拍摄的照片。

对于它们中的每一个,值1表示存在,0表示不存在,-1表示未知。

 

Instance segmentation masks

掩码信息存储在两个文件中:

  • 单个掩码图像,在文件名中编码信息。
  • 带有附加信息的逗号分隔值(CSV)文件(masks_data.csv)。

掩码图像是PNG二进制图像,其中非零像素属于一个对象实例,零像素是背景。文件名如下(随机5个例子)

e88da03f2d80f1a1_m019jd_e16d01b9.png
540c5536e95a3282_m014j1m_b00fa52e.png
1c84bdd61fa3b883_m06m11_62ef2388.png
663389d2c9d562d8_m04_sv_7e23f2a5.png
072b8fd82919ab3e_m06mf6_dd70f221.png

zip归档名称的格式如下:每个 <subset>_<suffix>.zip 包含所有ImageID的第一个字符为 <suffix>的图像的所有掩码。
<suffix>的值从0-9和a-f开始。
masks_data.csv中的每一行描述一个实例,使用类似的约定作为框的CSV数据文件。

MaskPath,ImageID,LabelName,BoxID,BoxXMin,BoxXMax,BoxYMin,BoxYMax,PredictedIoU,Clicks
25adb319ebc72921_m02mqfb_8423aba8.png,25adb319ebc72921,/m/02mqfb,8423aba8,0.000000,0.998438,0.089062,0.770312,0.62821,0.15808 0.26206 1;0.90333 0.41076 0;0.17578 0.66566 1;0.00761 0.23197 1;0.07918 0.26058 0;0.31792 0.47737 1;0.12858 0.59262 0;0.73229 0.34016 1;0.01865 0.20001 1;0.52214 0.31037 0;0.83596 0.28105 1;0.23418 0.60177 0
0a419be97dec2fa3_m02mqfb_8ad2c442.png,0a419be97dec2fa3,/m/02mqfb,8ad2c442,0.057813,0.943750,0.056250,0.960938,0.87836,0.89971 0.08481 1;0.20175 0.90471 0;0.11511 0.89990 0;0.94728 0.28410 0;0.19611 0.85369 0;0.07672 0.87857 1;0.82215 0.62642 0;0.13916 0.92650 1;0.51738 0.48419 1
8eef6e54789ce66d_m02mqfb_83dae39c.png,8eef6e54789ce66d,/m/02mqfb,83dae39c,0.037500,0.978750,0.129688,0.925000,0.70206,0.40219 0.16838 1;0.56758 0.65286 1;0.08311 0.90762 1;0.20840 0.56515 1;0.43336 0.23679 0;0.24689 0.43426 0;0.49292 0.65762 1;0.31383 0.51431 0;0.07137 0.86214 0;0.68160 0.38210 1;0.69462 0.59568 0
...

MaskPath:对应掩码图像的名称。

ImageID:这个掩码所在的图像。

LabelName:这个掩码所属的对象类的MID。

BoxID:图像中框的标识符。

BoxXMin, BoxXMax, BoxYMin, BoxYMax:链接到掩码的框的坐标,在归一化的图像坐标中。注意,这不是掩码的边界框,而是用于注释掩码的起始框。这些坐标可用于将掩码数据与框数据关联起来。

PredictedIoU:如果存在,表示相对于ground-truth的预测IoU值。此质量评估是基于人工注释器行为由机器生成的。详见[3]。

click:如果存在,表示人工注释器单击,它在我们执行的注释过程中提供了指导(详细信息请参阅[3])。该字段采用以下格式编码:X1 Y1 T1;X2 Y2 T2;X3 Y3 T3;Xi Yi是归一化图像坐标中点击的坐标。Ti是单击类型,值0表示注释器将该点标记为背景,值1表示对象实例的一部分(前景)。这些点击对于交互式分割领域的研究人员来说是很有趣的。对于只对最终蒙版感兴趣的用户,它们不是必需的。

Visual relationships

文件中的每一行对应一个注释。

ImageID,LabelName1,LabelName2,XMin1,XMax1,YMin1,YMax1,XMin2,XMax2,YMin2,YMax2,RelationLabel
0009fde62ded08a6,/m/0342h,/m/01d380,0.2682927,0.78549093,0.4977778,0.8288889,0.2682927,0.78549093,0.4977778,0.8288889,is
00198353ef684011,/m/01mzpv,/m/04bcr3,0.23779725,0.30162704,0.6500938,0.7335835,0,0.5819775,0.6482176,0.99906194,at
001e341dd7456c72,/m/04yx4,/m/01mzpv,0.07009346,0.2859813,0.2332708,0.5203252,0.14018692,0.31588784,0.32082552,0.48405254,on
001e341dd7456c72,/m/04yx4,/m/01mzpv,0,0.28317758,0.26454034,0.5540963,0.2224299,0.3411215,0.3908693,0.4859287,on
001e341dd7456c72,/m/01599,/m/04bcr3,0.5551402,0.6084112,0.50343966,0.5490932,0.5411215,0.95981306,0.5090682,0.78361475,on
001e341dd7456c72,/m/04bcr3,/m/01d380,0.7392523,0.9990654,0.3889931,0.518449,0.7392523,0.9990654,0.3889931,0.518449,is
...

ImageID:这个关系实例所在的映像。

LabelName1:关系三元组中第一个对象的标签。

XMin1,XMax1,YMin1,YMax1:第一个对象的包围框的规范化包围框坐标。

LabelName2:关系三元组或属性中的第二个对象的标签。

XMin2, XMax2, YMin2, YMax2:如果是一对对象之间的关系:第二个对象的边界框的规范化边界框坐标。对于对象-属性关系(RelationLabel="is"):第一个对象的规范化边界框(重复)。在本例中,LabelName2是一个属性。

RelationLabel:关系的标签(属性为“is”)。

Image Labels

人工验证和机器生成的图像级标签:

ImageID,Source,LabelName,Confidence
000026e7ee790996,verification,/m/04hgtk,0
000026e7ee790996,verification,/m/07j7r,1
000026e7ee790996,crowdsource-verification,/m/01bqvp,1
000026e7ee790996,crowdsource-verification,/m/0csby,1
000026e7ee790996,verification,/m/01_m7,0
000026e7ee790996,verification,/m/01cbzq,1
000026e7ee790996,verification,/m/01czv3,0
000026e7ee790996,verification,/m/01v4jb,0
000026e7ee790996,verification,/m/03d1rd,0
...

Source:指示如何创建注释:

  • verification 是由谷歌的内部注释器验证的标签。
  • crowdsource-verification 是指通过众包app验证标签。
  • machine 是机器生成的标签。

Confidence:在图像中出现的经过人类验证的标签置信度= 1(正面标签)。经过人为验证的标签在图像中不存在时,置信度为0(负标签)。机器生成的标签具有部分置信度,通常>= 0.5。信心越高,被贴上假阳性标签的可能性就越小。

Class Names

MID格式的类名可以通过查看class description.csv转换为它们的简短描述:

...
/m/0pc9,Alphorn
/m/0pckp,Robin
/m/0pcm_,Larch
/m/0pcq81q,Soccer player
/m/0pcr,Alpaca
/m/0pcvyk2,Nem
/m/0pd7,Army
/m/0pdnd2t,Bengal clockvine
/m/0pdnpc9,Bushwacker
/m/0pdnsdx,Enduro
/m/0pdnymj,Gekkonidae
...

注意逗号和引号等字符的存在。该文件遵循标准的CSV转义规则。例如:

/m/02wvth,"Fiat 500 ""topolino"""
/m/03gtp5,Lamb's quarters
/m/03hgsf0,"Lemon, lime and bitters"

Image IDs

它有图像url、它们的OpenImages id、旋转信息、标题、作者和许可信息:

ImageID,Subset,OriginalURL,OriginalLandingURL,License,AuthorProfileURL,Author,Title,
OriginalSize,OriginalMD5,Thumbnail300KURL,Rotation
...
000060e3121c7305,train,https://c1.staticflickr.com/5/4129/5215831864_46f356962f_o.jpg,\
https://www.flickr.com/photos/brokentaco/5215831864,\
https://creativecommons.org/licenses/by/2.0/,\
"https://www.flickr.com/people/brokentaco/","David","28 Nov 2010 Our new house."\
211079,0Sad+xMj2ttXM1U8meEJ0A==,https://c1.staticflickr.com/5/4129/5215831864_ee4e8c6535_z.jpg,0
...

每个图片都分配了一个惟一的64位ID。在CSV文件中,它们以零填充的十六进制整数的形式出现,比如000060e3121c7305。

数据与目标网站上显示的一样。

  • OriginalSize 是原始图像的下载大小。
  • OriginalMD5 是base64编码的二进制MD5,如下所述。
  • Thumbnail300KURL 是到具有~300K像素(~640x480)的缩略图的可选URL。它提供了方便的下载数据,在没有更方便的方式获得图像。如果缺少OriginalURL,则必须使用它(如果需要,则将其调整为相同的大小)。这些缩略图是动态生成的,它们的内容甚至分辨率可能每天都不一样。
  • Rotation 是图像逆时针旋转的角度数,以匹配Flickr用户期望的方向(0,90,180,270)。nan表示此信息不可用。有关此问题的更多信息,请查看此公告。

Hierarchy for 600 boxable classes

在这里可以将box - able类的集合作为层次结构查看,或者下载为JSON文件:

References

  1. "We don't need no bounding-boxes: Training object class detectors using only human verification, Papadopolous et al., CVPR 2016.

  2. "Extreme clicking for efficient object annotation", Papadopolous et al., ICCV 2017.

  3. "Large-scale interactive object segmentation with human annotators", Benenson et al., CVPR 2019.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值