场景图
文章平均质量分 92
weixin_42653320
主要做视觉问答方向
展开
-
2021:Graphhopper: Multi-Hop Scene Graph Reasoning for Visual Question Answering
摘要 视觉问答需要对问题的深度语义和语言理解,以及将其与图像中的对象联系起来的能力,它需要计算机视觉和自然语言处理的多模态推理。我们提出Graphhopper,通过整合知识图推理、计算机视觉和自然语言处理技术来处理任务。具体地,我们的方法是基于场景实体及其语义和空间关系来执行上下文驱动、序列化的推理。第一步,我们获得一个描述图像中物体和它们的属性和相互关系的场景图。随后,训练一个强化学习代理,以多跳方式在提取的场景图上自主导航,以生成推理路径,这是推到答案的基础。在GQA数据集上进行实验,...原创 2021-09-02 22:10:49 · 726 阅读 · 0 评论 -
2021:场景图视觉问答GraphVQA: Language-Guided Graph Neural Networks for Scene Graph Question Answering
摘要 场景图是图像的一种新的图形化表示形式。场景图将目标编码为节点,将目标间的成对关系编码为边。为支持场景图上的视觉问答,我们提出了GraphVQA,一种语言导向的图神经网络框架,将自然语言问题转换为图节点间消息传递的多次迭代。我们探索了GraphVQA框架的设计空间,并讨论多种不同设计选择的权衡。在GQA数据集上大大由于最先进模型。原文代码一、介绍 GraphVQA核心:将问题转换为图节点之间信息传递的多次迭代。 对于问题What is t...原创 2021-06-29 15:39:53 · 1078 阅读 · 0 评论 -
2020:可视化的视觉问答LRTA: A Transparent Neural-Symbolic Reasoning Framework with Modular Supervision
摘要 为解决视觉问答中很难为预测过程提供直观、人类可读的形式的问题,我们将视觉问答重新表述为一个完整的答案生成任务,需要模型用自然语言证明其预测是合理的。本文提出了LRTA[Look, Read, Think, Answer],一个透明的视觉问答的神经符号推理框架,像人类一样一步一步解决问题,并在每一步提供人类可读的论证形式。我们在GQA数据集上的实验表明,在完整答案生成任务上,LRTA的性能大大优于最先进的模型(43.1%v.s.28.0%)。我们还通过删除语言线索(属性和关系)来创建一个...原创 2021-06-29 16:41:27 · 508 阅读 · 0 评论