谷歌最新发布数据集：Open Images V6 来了！新增局部叙事标注形式

谷歌于2020年2月26日正式发布 Open Images V6，增加大量新的视觉关系标注、人体动作标注，同时还添加了局部叙事（localized narratives）新标注形式，即图像上附带语音、文本和鼠标轨迹等标注信息。

在许多方面，Open Images 都是最大的带标注的图像数据集，可用于训练计算机视觉任务的最新深层卷积神经网络。随着去年5月发布的第5版，Open Images 数据集包括900万幅图像，这些图像标注了3600万幅图像级标签，1580万个边界框，280万个实例分割和391k个视觉关系。连同数据集本身，相关的“Open Images Challenges”激发了目标检测，实例分割和视觉关系检测方面的最新进展。

Open Images V6

谷歌在2020年2月26日宣布发布Open Images V6，该版本通过大量新的视觉关系（例如“狗抓飞盘”），人体动作标注（例如，“woman jumping”和图片级标签（例如“paisley”）。值得注意的是，此版本还添加了局部叙事，这是一种全新的多模式注释形式，包括在所描述对象上的同步语音，文本和鼠标轨迹。在Open Images V6中，这些局部的叙述适用于其500k的图像。此外，为了便于与以前的作品进行比较，我们还发布了COCO数据集的完整123k图像的局部叙事标注。

数据集链接：https://storage.googleapis.com/openimages/web/index.html

Sample of localized narratives

局部叙事（Localized Narratives）

Localized narratives 的动机之一是研究和利用视觉和语言之间的联系，通常通过图像描述（image captioning）来完成-图像与人类对其内容的文字描述配对。但是，图像描述的局限性之一是缺乏视觉基础，即文本描述中图像words的局部化。为了减轻这种情况，一些先前的著作对描述中存在的名词进行了后验绘制。相反，在局部叙事中，文字描述中的每个单词都是有局部(位置信息)的。