ConceptBert: Concept-Aware Representation for Visual Question Answering (2020)

本文提出ConceptBert,一种结合外部结构化内容的VQA模型。通过学习概念-视觉-语言联合嵌入,利用知识图增强外部知识,解决了仅依赖图像和问题的VQA方法的局限性。实验表明,该模型在VQA 2.0和OK-VQA数据集上表现出色。
摘要由CSDN通过智能技术生成

视觉问答(VQA)是一项耗时很长的任务,越来越受到计算机视觉自然语言处理领域的关注。目前VQA的研究主要集中在可以通过直接分析问题和图像来回答的问题上。我们提出了一种概念感知算法ConceptBert,用于解决需要来自外部结构化内容的常识或基本事实知识的问题。给定自然语言中的图像和问题,ConceptBert需要图像的视觉元素和知识图(Knowl-edge Graph,KG)来推断正确的答案。我们介绍了一种多模态表示,它学习了一种联合概念-视觉-语言嵌入。我们使用ConceptNet KG对常识知识进行编码,并在外部知识--VQA(OK-VQA)和VQA数据集上对我们的方法进行了评估。

Introduction

视觉问答(VQA)最早被引入视觉和语言联合空间,以弥补自然语言处理和图像理解应用之间的差距(马林诺夫斯基和弗里茨,2014)。大多数VQA基准使用单词嵌入技术和递归神经网络(RNNs)以及一组包括边界框坐标和图像特征向量的对象描述符来计算问题表示。单词和图像表示然后被融合并被馈送到网络以训练VQA模型。然而,当不需要视觉内容以外的知识时,这些方法是实用的

融入外部知识有几个好处。外部知识支持事实可以改善图像中检测到的对象之间的关系表示,或者问题中的实体和图像中的对象之间的关系表示。它还提供了如何从问题中得出答案的信息。因此,可以在支持知识库的基础上增加问题的复杂性。组织世界上的事实并将其存储在结构

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值