Visual Question Answering: Datasets, Algorithms, and Future Challenges心得体会

最近刚好在写综述,也看了一篇较早的综述性文章,作为VQA入门性文章还是值得一看的,这边自己记录了一下关于这篇文章的阅读体会,以及相关部分翻译,以供自己学习写作为用。

文章下载地址:Visual Question Answering: Datasets, Algorithms, and Future Challenges——下载地址

目录

1.文章导读

2.文章精读

2.1经典的数据集介绍

2.3 VQA的评价指标(Evaluation Metrics):

2.4 VQA算法介绍

3.VQA未来之挑战

4.作者对未来VQA数据集的建议

5.结论

6.论文参考文献


1.文章导读

视觉问题回答(Visual Question answer, VQA)是近年来计算机视觉和自然语言处理领域出现的一个新问题,已经引起了深度学习、计算机视觉和自然语言处理领域的广泛关注。在VQA中,算法需要回答关于图像的基于文本的问题。自2014年发布第一个VQA数据集以来,已经发布了更多的数据集,并提出了许多算法。在这篇综述中,作者从问题公式化、现有的数据集、评估指标和算法等方面仔细检查了VQA的当前状态。特别地,作者讨论了当前数据集在适当地训练和评估VQA算法方面的局限性。然后,作者详尽地回顾了VQA的现有算法。最后,作者讨论了未来VQA和图像理解研究的可能方向。

2.文章精读

从2014年起,VQA逐渐发展,其涉及到的主要问题包括:目标识别,目标检测,属性分类,场景分类,计数,除了这些,甚至可以探究图像中目标之间的空间关系,场景原因提问(比如问图中的女孩人物为什么哭?)。

VQA的应用也是非常具有潜力。VQA能够尽可能的帮助盲人来理解世界,也能够以一种自然的方式改变人机交互,甚至可以在没有标签和元数据的情况下进行图像检索。

视觉图灵检测能够评估图像语义分析是否达到人类可以接受的层面,因此这篇文章将对于VQA的一些基本问题展开讨论。

图1:与VQA相比,对象检测、语义分割和图像字幕。中间的图是典型对象检测系统的理想输出,右边的图是来自COCO数据集[10]的语义分割图。这两个任务都缺乏提供有关对象的上下文信息的能力。这张COCO图片的说明文字范围很广,从非常普通的场景描述,例如,一个繁忙的城镇人行道旁边的街道停车场和十字路口。例如,一个女人牵着一条狗慢跑。这两个标题都是可以接受的,但是使用VQA可以提取更多的信息。对于COCO-VQA数据集,关于此图像的问题是滑冰运动员穿什么样的鞋?城市还是郊区?那里有什么动物?

2.1经典的数据集介绍

从2014年以来,常见的VQA数据集主要有DAQUAR,COCO-QA,The VQA Dataset,FM-IQA,Visual7W,Visual Genome。除了DAQUAR,这些数据集中的图像大多来自COCO(Microsoft Common Objects in Context,包含328,000张图像,91类目标,超过2百万个标签,平均每张图片超过5个描述),另外还有Visual Genome和 Visual7W用了Flickr100M数据集做了补充。一个好的数据集需要有图像,问题,以及现实世界中的概念。

(1)DAQUAR(DAtaset for QUestion Answering on Real-world images):最早也是最小的VQA数据集,包含了6795张训练数据和5673张测试数据,所有图像来自于数据集NYU-DepthV2 Dataset。该数据集质量较差,一些图像杂乱无章,分辨率低,并且问题和回答有明显的语法错误。

DAQUAR:在桌子角落的电脑后面是什么?地面的真相:论文

如上图所示,DAQUAR图像常常被杂乱和低分辨率的图像破坏。

(2)COCO-QA:这个数据集是由COCO数据集进行看图说话,并用NLP算法来产生问题和回答。该数据集包含训练数据78736张,测试数据38948张。关于提出的问题,其中69.84%是对于目标提问,16.59%是关于颜色提问,7.74%是关于计数提问,6.10%是关于位置提问。所有答案都是单个词语,一共只有435个独一无二的答案。COC-QA数据集最大的问题在于所有的QA(question-answer)都是通过NLP算法得到,但是这么做的问题就是无法对从句还有语法多样性进行处理,这样就导致了提问中的一些语法错误,另外还有一个问题就是问题只是针对上述4方面而设计。

COCO-QA:一个十字路口的一侧、两辆双层巴士和第三辆车显示了什么?真实答案:建筑

如上图所示,相当数量的COCO-QA问题有语法错误,而且是无意义的。

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值