Out of the Box: Reasoning with Graph ConvolutionNets for Factual Visual Question Answering论文解读

最新推荐文章于 2021-07-15 16:29:35 发布

小有名气的可爱鬼

最新推荐文章于 2021-07-15 16:29:35 发布

阅读量855

点赞数

分类专栏： VQA 文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/weixin_42305378/article/details/104444255

版权

文章目录

论文链接: https://arxiv.org/abs/1811.00538.

1. 介绍

对于大多数的VQA来说，可以直接从图像内容获取到问题的答案无须推理过程，使用一般知识进行推理仍然是算法挑战。为了推进这方面的研究，最近引入了一种新的“基于事实的”视觉问题回答（FVQA）任务，以及一个附带的数据集，其中包含图像，带有相应答案的问题以及从三个不同来源提取的事实的知识库（KB）：WebChild ，DBPedia 和ConceptNet 。与经典的VQA数据集不同，FVQA数据集中的问题是通过对图像中的信息和知识库中的事实的集体分析来回答的。每个问题都映射到一个包含问题答案的支持事实。因此，回答一个问题需要分析图像并选择正确的支持事实。

在这里插入图片描述
给定一个图像 I 和相应的问题Q，基于事实的图像问答任务（FVQA）任务是使用一个由事实组成的外部知识库KB来预测答案，即，KB={f₁,f₂，…，f_|KB|}。一个事实表示为 f=（x，r，y）形式，其中x是一个基于图像的视觉概念，y是一个属性或短语，r∈R是x和y两个实体之间的关系,分别使用x(f）、y(f）或rel(f）提取。知识库中的关系是一组13个可能的关系的一部分:R={Category，Comparative，HasA，IsA，HasProperty，CapableOf，Desires，RelatedTo，AtLocation，PartOf，ReceivesAction，UsedFor，CreatedBy} 。上面的三张图便是摘自FVAQ事实视觉问答任务。

左图问题：图片中的区域是用来做什么的？
事实三元组:(Field，UsedFor，Grazing Animals）田野用于放牧

最低0.47元/天解锁文章

小有名气的可爱鬼

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
Out of the Box: Reasoning with Graph ConvolutionNets for Factual Visual Question Answering论文解读

对于大多数的VQA来说，可以直接从图像内容获取到问题的答案无须推理过程，使用一般知识进行推理仍然是算法挑战。为了推进这方面的研究，最近引入了一种新的“基于事实的”视觉问题回答（FVQA）任务，以及一个附带的数据集，其中包含图像，带有相应答案的问题以及从三个不同来源提取的事实的知识库（KB）：WebChild ，DBPedia 和ConceptNet 。与经典的VQA数据集不同，FVQA数据集中的问题是通过对图像中的信息和知识库中的事实的集体分析来回答的。每个问题都映射到一个包含问题答案的支持事实。因此，回答
复制链接

扫一扫