ConceptBert: Concept-Aware Representation for Visual Question Answering （2020）

最新推荐文章于 2022-09-10 11:25:47 发布

kwang8090

最新推荐文章于 2022-09-10 11:25:47 发布

阅读量1.2k

点赞数

分类专栏： VQA 文章标签：计算机视觉人工智能自然语言处理

本文链接：https://blog.csdn.net/wangxiaoxiaodeer/article/details/122144154

版权

本文提出ConceptBert，一种结合外部结构化内容的VQA模型。通过学习概念-视觉-语言联合嵌入，利用知识图增强外部知识，解决了仅依赖图像和问题的VQA方法的局限性。实验表明，该模型在VQA 2.0和OK-VQA数据集上表现出色。

摘要由CSDN通过智能技术生成

视觉问答(VQA)是一项耗时很长的任务，越来越受到计算机视觉和自然语言处理领域的关注。目前VQA的研究主要集中在可以通过直接分析问题和图像来回答的问题上。我们提出了一种概念感知算法ConceptBert，用于解决需要来自外部结构化内容的常识或基本事实知识的问题。给定自然语言中的图像和问题，ConceptBert需要图像的视觉元素和知识图(Knowl-edge Graph，KG)来推断正确的答案。我们介绍了一种多模态表示，它学习了一种联合概念-视觉-语言嵌入。我们使用ConceptNet KG对常识知识进行编码，并在外部知识--VQA(OK-VQA)和VQA数据集上对我们的方法进行了评估。

Introduction

视觉问答(VQA)最早被引入视觉和语言联合空间，以弥补自然语言处理和图像理解应用之间的差距(马林诺夫斯基和弗里茨，2014)。大多数VQA基准使用单词嵌入技术和递归神经网络(RNNs)以及一组包括边界框坐标和图像特征向量的对象描述符来计算问题表示。单词和图像表示然后被融合并被馈送到网络以训练VQA模型。然而，当不需要视觉内容以外的知识时，这些方法是实用的。

融入外部知识有几个好处。外部知识和支持事实可以改善图像中检测到的对象之间的关系表示，或者问题中的实体和图像中的对象之间的关系表示。它还提供了如何从问题中得出答案的信息。因此，可以在支持知识库的基础上增加问题的复杂性。组织世界上的事实并将其存储在结构

最低0.47元/天解锁文章

kwang8090

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ConceptBert: Concept-Aware Representation for Visual Question Answering （2020）

视觉问答(VQA)是一项耗时很长的任务，越来越受到计算机视觉和自然语言处理领域的关注。目前VQA的研究主要集中在可以通过直接分析问题和图像来回答的问题上。我们提出了一种概念感知算法ConceptBert，用于解决需要来自外部结构化内容的常识或基本事实知识的问题。给定自然语言中的图像和问题，ConceptBert需要图像的视觉元素和知识图(Knowl-edge Graph，KG)来推断正确的答案。我们介绍了一种多模态表示，它学习了一种联合概念-视觉-语言嵌入。我们使用ConceptNet KG对常识知识进行编
复制链接

扫一扫

专栏目录