论文阅读【Explicit Knowledge-based Reasoning for Visual Question Answering】CVPR2016

最新推荐文章于 2024-03-18 20:09:45 发布

睡觉不准打呼噜

最新推荐文章于 2024-03-18 20:09:45 发布

阅读量713

点赞数

分类专栏：论文阅读笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shuijiaobuzhundahulu/article/details/110826478

版权

论文阅读笔记专栏收录该内容

11 篇文章

订阅专栏

一．

摘要：通过知识库进行视觉问答，不仅能够使用图像中不包含的概念，还可以解释推理过程。另外，本文还提供了一个新的数据集和一个新的规则来评价视觉问答方法。

Motivation:之前的CNN+Lstm方法只能回答简单的问题，并且对先验信息的利用不足，最重要的LSTM只能在非常局限的语境下进行显式推理。因此本文提出Ahab,首先检测图像中的相关内容并于知识库关联；问题再转换成基于图像和知识库信息的方法，经过多层推理得到最终答案。

背景：大规模的结构化知识库将关系表示成（arg1,re1,arg2）,本文使用的是DBpedia,包含来自维基百科的结构化信息。先前利用外部知识库的方法是一种非自然语言的关系查询方法。

贡献：1.提出了一个视觉问答模型Ahab;提出一个新的数据集KB-VQA，该数据集的答案需要视觉、常识、外部知识库进行回答。

二．数据集

从MS COCO中选择700幅图，五个提问者依据23个模板提出3-5个问答对，并填写属性。每个问题还有一个标签，用于表明是视觉、常识或知识库问题。三类标签问题的量分别为1256，883，263。

三. 方法

RDF 图建立

（1）从图像中检测三种视觉概念：物体、场景、属性。

物体：在MS COCO 和ImageNet 上训练Fast-RCNN。

场景：在MIT Places205上训练VGG-16,取前三最高分。

图像属性：在ImageNet上训练，在MS COCO上微调VGG-16，每幅图取10个属性。

(2) 视觉概念与知识库联合，即上面得到的实体放入知识库中。

使用统一的资源标识符标识实体，联合视觉概念和DB百科得到结合图像和DB百科的RDF。接着，通过local OpenLink Virtuoso RDBMS关系数据库管理系统访问。

2. 回答问题

(1) 解析自然语言问题。用一些列NLP工具包，这块不是很清楚怎么做的。

(2) 将解析后的短语与知识库实体匹配。

(3) 映射到知识库尸体后，再根据问题模板生成SPARQL查询语句。

(4) 查询得到实体后使用工具包后处理（Python within Quepy），得出答案。整个查询过程即为推理过程。

四. 实验

评估方式：人类对答案进行五个评分，1分完全错误，5分完美。4分或者5分认为正确，其余为错误。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。