“Out of the box:Reasoning with Graph Convolution Nets for Factual Visual Question Answering”
今天给大家分享的NIPS2018的一篇有趣论文,还是老样子,论文PDF和高端大气上档次PPT下载链接:https://download.csdn.net/download/luolan9611/10824134
一,介绍
VQA(Visual Question Answer):是一种看图问答任务,它同时要求算法有能力分析理解图像的内容,并且对提出的问题进行语义抽取,关键知识解析。常见的图像问答可以直接从图像内容获取到问题的答案无须推理过程。
基于事实的视觉问答推理任务(FVQA):该任务不仅包含图像与相应问题及其答案的语料,还携带了一个数量巨大的知识库(知识数据库)里面包括了从各个来源提取到的事实(事实)。它要求算法根据问题中的文字表述结合图像,将事实关系映射到答案本身的实体上,即相较于看图问答(VQA),事实图像问答(FVQA)多了一个推断的过程。
基于事实的图像问答任务(FVQA)输入数据由成对的图像与其对应的问题,所有游戏外加大量事实的知识库(KB)构成,事实在知识库中以形如F =( x,y,r)的三元组来表示,x指代图像中的实体信息,y指代属性或者短语,r则是关系介词。“FVQA:Fact-Based Visual Question Answering”的作者提出了FVQA数据集,该数据集有2190图片,5286问题,问题对应了4126事实。上面的三张图便是摘自FVAQ事实视觉问答任务。
左图问题:图片中的区域是用来做什么的?
事实三元组:(Field,UsedFor,Grazing Animals)田野用于放牧
中间问题:图中的哪个物体和老虎更相近?
事实三元组:( Cat,RelatedTo,Tiger)猫和老虎相关
右图问题:这张图中的地上能找到什么?
事实三元组(Sand,AtLocation,Beatch)沙子在沙滩上
这些事实关系抽取自知识库如ConceptNet,WebChild,DBpedia。可能的关系有可能的关系R = {Category,Comparative,HasA,IsA,HasProperty,CapableOf,Desires,RelatedTo,AtLocation,PartOf,ReceivesAction,UsedFor,CreatedBy} ),如下表所示(该表截自FVQA论文):