一.
摘要:通过知识库进行视觉问答,不仅能够使用图像中不包含的概念,还可以解释推理过程。另外,本文还提供了一个新的数据集和一个新的规则来评价视觉问答方法。
Motivation:之前的CNN+Lstm方法只能回答简单的问题,并且对先验信息的利用不足,最重要的LSTM只能在非常局限的语境下进行显式推理。因此本文提出Ahab,首先检测图像中的相关内容并于知识库关联;问题再转换成基于图像和知识库信息的方法,经过多层推理得到最终答案。
背景:大规模的结构化知识库将关系表示成(arg1,re1,arg2),本文使用的是DBpedia,包含来自维基百科的结构化信息。先前利用外部知识库的方法是一种非自然语言的关系查询方法。
贡献:1.提出了一个视觉问答模型Ahab;提出一个新的数据集KB-VQA,该数据集的答案需要视觉、常识、外部知识库进行回答。
二.数据集
从MS COCO中选择700幅图,五个提问者依据23个模板提出3-5个问答对,并填写属性。每个问题还有一个标签,用于表明是视觉、常识或知识库问题。三类标签问题的量分别为1256,883,263。
三. 方法
- RDF 图建立
(1)从图像中检测三种视觉概念:物体、场景、属性。
物体:在MS COCO 和ImageNet 上训练Fast-RCNN。
场景:在MIT Places205上训练VGG-16,取前三最高分。
图像属性:在ImageNet上训练,在MS COCO上微调VGG-16,每幅图取10个属性。
(2) 视觉概念与知识库联合,即上面得到的实体放入知识库中。
使用统一的资源标识符标识实体,联合视觉概念和DB百科得到结合图像和DB百科的RDF。接着,通过local OpenLink Virtuoso RDBMS关系数据库管理系统访问。
2. 回答问题
(1) 解析自然语言问题。用一些列NLP工具包,这块不是很清楚怎么做的。
(2) 将解析后的短语与知识库实体匹配。
(3) 映射到知识库尸体后,再根据问题模板生成SPARQL查询语句。
(4) 查询得到实体后使用工具包后处理(Python within Quepy),得出答案。整个查询过程即为推理过程。
四. 实验
评估方式:人类对答案进行五个评分,1分完全错误,5分完美。4分或者5分认为正确,其余为错误。