VQA系列论文（一）

jiojio-star

已于 2022-03-31 08:44:31 修改

阅读量1.4k

点赞数 3

分类专栏： VQA 文章标签：深度学习

于 2022-03-30 22:22:05 首次发布

本文链接：https://blog.csdn.net/qq_45667337/article/details/123858907

版权

本文介绍了一种名为MuKEA的多模态知识提取与积累框架，用于知识型视觉问答任务。通过从VQA数据集中学习，模型能够独立于外部知识库，构建包含视觉和语言信息的多模态知识表示。MuKEA使用预训练和微调策略，从VQA样本中抽取多模态知识三元组，并进行可解释推理。实验表明，该模型在OK-VQA和KRVQA数据集上表现出色，特别是在知识无关问题上，但仍有提升空间，如处理基于关系的推理问题。

摘要由CSDN通过智能技术生成

阅读论文：《MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering》

标题：基于知识的视觉问答的多模态知识提取与积累

来源：CVPR 2022https://arxiv.org/abs/2203.09138
代码：https://github.com/AndersonStra/MuKEA

一、问题提出

一般的基于知识的视觉问答（KB-VQA）要求具有关联外部知识的能力，以实现开放式跨模态场景理解。

现有的研究主要集中在从结构化知识图中获取相关知识，如ConceptNet和DBpedia，或从非结构化/半结构化知识中获取相关知识，如Wikipedia和Visual Genome。虽然这些知识库通过大规模的人工标注提供了高质量的知识，但一个局限性是，它们从纯文本的知识库中获取相关知识，这些知识库仅包含由一阶谓词或语言描述表示的事实，因此这种知识库很难表示高阶谓词和多模态知识，而这些知识是回答复杂问题所必需的，所以现有的模型无法很好的进行视觉理解。