解锁Flickr30k Entities:图像语义理解的关键数据集

数据集介绍

Flickr30k 数据集已成为基于句子的图像描述的标准基准。本文介绍了 Flickr30k Entities 数据集,它在 Flickr30k 的 15.8 万个图像字幕基础上,增加了 24.4 万个共指链,将同一图像在不同字幕中对相同实体的提及联系起来,并将它们与 27.6 万个手动标注的边界框相关联。这些注释对于自动图像描述和基于实际场景的语言理解的持续发展至关重要。它们使我们能够定义一个新的基准,用于在图像中定位文本实体提及。我们提出了一个针对此任务的强大基线模型,该模型结合了图像 - 文本嵌入、常见物体检测器、颜色分类器,以及选择较大物体的偏好。虽然我们的基线模型在准确性上可以与更复杂的当前最优模型相媲美,但我们发现其优势并不能轻易转化为图像 - 句子检索等任务的改进,这凸显了当前方法的局限性以及进一步研究的必要性。

数据集构成

基础数据

Flickr30k Entities 数据集基于 Flickr30k 数据集构建,包含来自 Flickr 网站的 31783 张图像 ,这些图像涵盖了日常场景、活动和事件等丰富内容。每张图像均关联 5 个由众包生成的字幕,总共包含 15.8 万个字幕。这种图像与字幕的对应关系,为研究图像与自然语言描述之间的联系提供了丰富的数据基础,有助于训练模型学习如何准确地根据图像内容生成合适的文本描述,或者依据文本描述在图像中定位相关信息。

核心 ference 链

核心 ference 链(共指链)是 Flickr30k Entities 数据集的重要组成部分,共计 24.4 万个。它的作用是将同一图像在不同字幕中对相同实体的提及连接起来。例如,对于一张包含人物的图像,在不同字幕中可能会用 “男人”“那个人”“他” 等不同表述来指代该人物,共指链就能够将这些不同表述关联起来,明确它们指向的是图像中的同一实体。这使得模型能够更好地理解不同语言表达下的同一实体概念,提升对图像中实体的理解和处理能力,在自然语言处理与计算机视觉结合的任务中,增强模型对语义的把握和跨描述的一致性理解。

边界框标注

数据集中还包含 27.6 万个手动标注的边界框。这些边界框是对字幕中提到的实体(如人、物体等)在图像中的位置进行精确标注。以一张包含汽车的图像为例,边界框会框定汽车在图像中的具体区域,明确其位置和范围。通过这种标注,模型可以学习到文本中提及的实体在图像中的具体位置信息,实现文本与图像中实体的精准对应,这对于图像中实体的定位任务至关重要,能够帮助模型更准确地理解图像内容,在图像描述、目标检测、图像检索等任务中发挥关键作用,提升模型在这些任务上的性能表现 。

数据标注格式

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

qq_38220914

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值