摘要
场景图是图像的一种新的图形化表示形式。场景图将目标编码为节点,将目标间的成对关系编码为边。为支持场景图上的视觉问答,我们提出了GraphVQA,一种语言导向的图神经网络框架,将自然语言问题转换为图节点间消息传递的多次迭代。我们探索了GraphVQA框架的设计空间,并讨论多种不同设计选择的权衡。在GQA数据集上大大由于最先进模型。
一、介绍
GraphVQA核心:将问题转换为图节点之间信息传递的多次迭代。
对于问题What is the red object left of the girl that is holding a hamburger, 可通过以下的消息传递进行迭代来回答:hamburger → small girl → red tray,消息传递的最终状态表示答案,中间状态反映推理。 每个消息传递迭代都由一个图神经网络(GNN)层完成。
二、图的机器学习
建模图形数据,过去方法通过标