WiKipedia(弱相关数据集)
模态
图像(image)
文本
描述
维基百科数据集 是最广泛使用的跨媒体检索数据集。 它基于维基百科的“特色文章”,一个不断更新的文章集合。 “专题文章”共有29个类别,但实际上只考虑了10个最多的类别。 每篇文章根据其部分标题分为几个部分,该数据集最终生成为一组 2,866 个图像/文本对。 维基百科数据集作为跨媒体检索的重要基准数据集,自公开以来就被广泛使用。
该数据集共有2866对图像和文本对,分10个类别(单标签)
art
biology
geography
history
literature
media
music
royalty
sport
warfare
常用数据集划分
dastset | modality | instance | feature | label |
WikI | image text | 2173/231/462 2173/231/462 | 4096-d VGG 300-d BoW | 10(单标签) |
文件
images:原始的10个类别的图像,有分好类。
texts:原始的10个类别的文本,没有分好类。
categories:标签列表。
trainset_txt_img_cat.list:训练集2173张图文对和对应的标签。
trainset_txt_img_cat:测试集462张图文对和标签。
raw_features:原始特征。
Pascal Sentence (强相关数据集)
Pascal Sentences数据集预处理_iTom's blog-CSDN博客
模态
图像(image)
文本
描述
Pascal Sentences[1] 包含来自 VOC 2008[2] 的 1000
对图文对,多数图有 5
句描述,分20个类别。
常用数据集划分
dastset | modality | instance | feature | label |
Pascal Sentence | image text | 800/100/100 800/100/100 | 4096-d VGG 300-d BoW | 20(单标签) |
NUS-WIDE
描述
该数据集包括:(1)来自 Flickr 的 269,648 张图像和相关标签,共有 5,018 个唯一标签; (2) 从这些图像中提取的六类低级特征,包括64-D颜色直方图、144-D颜色相关图、73-D边缘方向直方图、128-D小波纹理、225-D分块颜色矩和 基于 SIFT 描述的 500-D 词袋; (3) 可用于评估的 81 个概念的基本事实。
NUS-WIDE 数据集 [3] 是由 NUS 实验室创建的用于媒体搜索的网络图像数据集,包括图像及其相关标签。 图片和标签都是通过其公共 API 从 Flickr 随机抓取的。 删除重复图像后,NUS-WIDE 数据集中有 269,648 张图像。 为了进一步提高标签的质量,那些在 WordNet 中不存在的标签将被删除。 所以最终5,018个唯一标签与图像对应,每张图像平均关联6个标签。 NUS-WIDE 是一个比较大的数据集,但它只包含图像及其标签。
PUK XMediaNet数据集
模态
文本
图像
视频
音频
3D建模
描述
它由 5 种媒体类型(文本、图像、视频、音频和 3D 模型)组成。 从 WordNet 中选择 200 个类别节点来构建这个数据集,以确保语义层次结构。 这些类别可以分为两个主要部分:动物和文物。 有大象、猫头鹰、蜜蜂、青蛙等48种动物和小提琴、飞机、猎枪、照相机等152种神器。 媒体实例的总数将超过 100000。
常用的数据集划分
dastset | modality | instance | feature | label |
PKU Xmedia | image text Video Audio 3D | 32000/8000 32000/8000 8000/2000 8000/2000 16000/400 | 4096-d VGG 300-d BoW | (多标签) |