Visual Question Answering: Datasets, Algorithms, and Future Challenges心得体会

最新推荐文章于 2024-03-18 20:09:45 发布

智商25的憨憨

最新推荐文章于 2024-03-18 20:09:45 发布

阅读量1.3k

点赞数 3

分类专栏：视觉问答

本文链接：https://blog.csdn.net/gxc19971128/article/details/104594477

版权

最近刚好在写综述，也看了一篇较早的综述性文章，作为VQA入门性文章还是值得一看的，这边自己记录了一下关于这篇文章的阅读体会，以及相关部分翻译，以供自己学习写作为用。

文章下载地址：Visual Question Answering: Datasets, Algorithms, and Future Challenges——下载地址

1.文章导读

2.文章精读

2.1经典的数据集介绍

2.3 VQA的评价指标（Evaluation Metrics）：

1.文章导读

视觉问题回答(Visual Question answer, VQA)是近年来计算机视觉和自然语言处理领域出现的一个新问题，已经引起了深度学习、计算机视觉和自然语言处理领域的广泛关注。在VQA中，算法需要回答关于图像的基于文本的问题。自2014年发布第一个VQA数据集以来，已经发布了更多的数据集，并提出了许多算法。在这篇综述中，作者从问题公式化、现有的数据集、评估指标和算法等方面仔细检查了VQA的当前状态。特别地，作者讨论了当前数据集在适当地训练和评估VQA算法方面的局限性。然后，作者详尽地回顾了VQA的现有算法。最后，作者讨论了未来VQA和图像理解研究的可能方向。

2.文章精读

从2014年起，VQA逐渐发展，其涉及到的主要问题包括：目标识别，目标检测，属性分类，场景分类，计数，除了这些，甚至可以探究图像中目标之间的空间关系，场景原因提问（比如问图中的女孩人物为什么哭？）。

VQA的应用也是非常具有潜力。VQA能够尽可能的帮助盲人来理解世界，也能够以一种自然的方式改变人机交互，甚至可以在没有标签和元数据的情况下进行图像检索。

视觉图灵检测能够评估图像语义分析是否达到人类可以接受的层面，因此这篇文章将对于VQA的一些基本问题展开讨论。

图1:与VQA相比，对象检测、语义分割和图像字幕。中间的图是典型对象检测系统的理想输出，右边的图是来自COCO数据集[10]的语义分割图。这两个任务都缺乏提供有关对象的上下文信息的能力。这张COCO图片的说明文字范围很广，从非常普通的场景描述，例如，一个繁忙的城镇人行道旁边的街道停车场和十字路口。例如，一个女人牵着一条狗慢跑。这两个标题都是可以接受的，但是使用VQA可以提取更多的信息。对于COCO-VQA数据集，关于此图像的问题是滑冰运动员穿什么样的鞋?城市还是郊区?那里有什么动物?

2.1经典的数据集介绍

从2014年以来，常见的VQA数据集主要有DAQUAR，COCO-QA，The VQA Dataset，FM-IQA，Visual7W，Visual Genome。除了DAQUAR，这些数据集中的图像大多来自COCO（Microsoft Common Objects in Context，包含328,000张图像，91类目标，超过2百万个标签，平均每张图片超过5个描述），另外还有Visual Genome和 Visual7W用了Flickr100M数据集做了补充。一个好的数据集需要有图像，问题，以及现实世界中的概念。

（1）DAQUAR（DAtaset for QUestion Answering on Real-world images）：最早也是最小的VQA数据集，包含了6795张训练数据和5673张测试数据，所有图像来自于数据集NYU-DepthV2 Dataset。该数据集质量较差，一些图像杂乱无章，分辨率低，并且问题和回答有明显的语法错误。

DAQUAR:在桌子角落的电脑后面是什么?地面的真相:论文

如上图所示，DAQUAR图像常常被杂乱和低分辨率的图像破坏。

（2）COCO-QA：这个数据集是由COCO数据集进行看图说话，并用NLP算法来产生问题和回答。该数据集包含训练数据78736张，测试数据38948张。关于提出的问题，其中69.84%是对于目标提问，16.59%是关于颜色提问，7.74%是关于计数提问，6.10%是关于位置提问。所有答案都是单个词语，一共只有435个独一无二的答案。COC-QA数据集最大的问题在于所有的QA（question-answer）都是通过NLP算法得到，但是这么做的问题就是无法对从句还有语法多样性进行处理，这样就导致了提问中的一些语法错误，另外还有一个问题就是问题只是针对上述4方面而设计。

COCO-QA:一个十字路口的一侧、两辆双层巴士和第三辆车显示了什么?真实答案:建筑

如上图所示，相当数量的COCO-QA问题有语法错误，而且是无意义的。

最低0.47元/天解锁文章

智商25的憨憨

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Visual Question Answering: Datasets, Algorithms, and Future Challenges心得体会

最近刚好在写综述，也看了一篇较早的综述性文章，作为VQA入门性文章还是值得一看的，这边自己记录了一下关于这篇文章的阅读体会，以及相关部分翻译，以供自己学习写作为用。文章下载地址：Visual Question Answering: Datasets, Algorithms, and Future Challenges——下载地址目录1.文章导读2.文章精读2.1经典的数据集介绍...
复制链接

扫一扫