VQA数据集及评价方法介绍

最新推荐文章于 2024-08-20 09:47:22 发布

这样子的话

最新推荐文章于 2024-08-20 09:47:22 发布

阅读量7.1k

点赞数 1

分类专栏： VQA 文章标签：自然语言处理计算机视觉 VQA

本文链接：https://blog.csdn.net/lsh894609937/article/details/61645283

版权

VQA 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

VQA(Visual Question Answering)是一项涉及到计算机视觉和自然语言处理的视觉任务，简单介绍下当前VQA所使用的数据集：
1. DQAUAR
DAQUAR(The DAtaset for QUestion Answering on Real-world images)是最早提出的VQA数据集，也是最小的VQA数据集。DAQUAR中的图像来自于NYU-Depth v2 数据集，都是室内场景的RGBD图像，795张用于训练，654张用于测试。DAQUAR中的question/answer pairs主要有两种类型：自动生成的和人工标注的。
2. COCO-QA
COCO-QA数据集中的图像来自于MS-COCO数据集，主要包括123287张图像，其中72738张用于训练，38948用于测试，并且每张图像都有一个question/answer pair，每个answer都是一个单词。这些question/answer pair都是根据MS-COCO中的图像描述自动生成的。根据Answer可以将Question分为四类：object、number、color 和location。由于问题都是自动生成的，所以存在一定的重复率。
3. FM-IQA
FM-IQA也是基于MS-COCO，包含123,287张图像。它的question/answer pair是通过Amazon Mechanical Turk crowd-sourcing platform自动生成的。注释的人可以提出任何和图像相关的问题，使得FM-IQA相对于之前的数据集更加复杂。FM-IQA中的question/answer pair是中文的，之后才将其翻译成英文的。
4. VQA dataset
VQA dataset中的图像主要由两个部分组成：现实图像和抽象卡通图像。VQA-real中有123,287训练图像和81,434测试图像，主要来自于MS-COCO数据集。不同于之前的一些数据集，VQA-real中包含二元问题（i.e, yes/no）。这个数据集中可以进行多选设置，即为每个问题提供17个额外的错误的候选答案。综上所述，VQA-real包含614163个问题，并且每个问题都包含10个来自不同注视者的答案。
5. Visual Genome
Visual Genome包含108,249张图像，这些图像来自于YFCC100M和MS-COCO数据集，平均每张图像有17个Q/A pairs。到目前为止，这是最大的VQA数据集。Visual Genome的问题主要由6种”W”构成：what,where,how,when,who和why。
6. Visual7W
Visual7W是Visual Genome的一个子集，包含47,300张图像。Visual7W的问题主要由What, Where, How, When, Who,Why, and Which构成。Visual7W的问题是多选问题，每个问题都有四个候选答案。

评价方法：