多模态公共空间表示常用数据集

最新推荐文章于 2024-09-24 20:15:45 发布

原创

最新推荐文章于 2024-09-24 20:15:45 发布 · 1.4k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #图像处理 #人工智能

本文介绍了三个常用的多模态数据集：WiKipedia、PascalSentence和NUS-WIDE，用于图像-文本匹配和检索任务。WiKipedia数据集包含2866个图像/文本对，分为10个类别；PascalSentence数据集有1000个图文对，涵盖20个类别；NUS-WIDE数据集则拥有269,648张图像，涉及5018个独特标签。此外，还提及了PKUXMediaNet数据集，这是一个包含5种媒体类型的大型多模态数据集，涉及200个类别。

WiKipedia（弱相关数据集）

数据集地址

模态

图像（image）

文本

描述

维基百科数据集是最广泛使用的跨媒体检索数据集。它基于维基百科的“特色文章”，一个不断更新的文章集合。 “专题文章”共有29个类别，但实际上只考虑了10个最多的类别。每篇文章根据其部分标题分为几个部分，该数据集最终生成为一组 2,866 个图像/文本对。维基百科数据集作为跨媒体检索的重要基准数据集，自公开以来就被广泛使用。

该数据集共有2866对图像和文本对，分10个类别（单标签）

art
biology
geography
history
literature
media
music
royalty
sport
warfare