谷歌最新发布数据集:Open Images V6 来了!新增局部叙事标注形式

谷歌于2020年2月26日正式发布 Open Images V6,增加大量新的视觉关系标注、人体动作标注,同时还添加了局部叙事(localized narratives)新标注形式,即图像上附带语音、文本和鼠标轨迹等标注信息。

在许多方面,Open Images 都是最大的带标注的图像数据集,可用于训练计算机视觉任务的最新深层卷积神经网络。随着去年5月发布的第5版,Open Images 数据集包括900万幅图像,这些图像标注了3600万幅图像级标签,1580万个边界框,280万个实例分割和391k个视觉关系。 连同数据集本身,相关的“Open Images Challenges”激发了目标检测,实例分割和视觉关系检测方面的最新进展。

Open Images V6

谷歌在2020年2月26日宣布发布Open Images V6,该版本通过大量新的视觉关系(例如“狗抓飞盘”),人体动作标注(例如,“woman jumping”和图片级标签(例如“paisley”)。 值得注意的是,此版本还添加了局部叙事,这是一种全新的多模式注释形式,包括在所描述对象上的同步语音,文本和鼠标轨迹。 在Open Images V6中,这些局部的叙述适用于其500k的图像。 此外,为了便于与以前的作品进行比较,我们还发布了COCO数据集的完整123k图像的局部叙事标注。

数据集链接:https://storage.googleapis.com/openimages/web/index.html

 

Sample of localized narratives

局部叙事(Localized Narratives

Localized narratives 的动机之一是研究和利用视觉和语言之间的联系,通常通过图像描述(image captioning)来完成-图像与人类对其内容的文字描述配对。 但是,图像描述的局限性之一是缺乏视觉基础,即文本描述中图像words的局部化。为了减轻这种情况,一些先前的著作对描述中存在的名词进行了后验绘制。 相反,在局部叙事中,文字描述中的每个单词都是有局部(位置信息)的。

标注是提供图像的语音描述,同时将鼠标移至要描述的区域上。语音标注是我们方法的核心,因为它直接将描述与其所引用图像的区域联系起来。为了使描述更易于访问,标注者需要手动转录了他们的描述,然后与自动语音转录结果对齐。 这将恢复描述的时间戳,确保三种方式(语音,文本和鼠标跟踪)正确且同步。

总结

Open Images V6是改进图像分类,目标检测,视觉关系检测和实例分割的统一标注数据集,并且采用新颖的方法将视觉和语言与局部叙事联系起来。 谷歌希望Open Images V6能够进一步帮助现有技术对真实场景的理解。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值