1.动机
作者认为:
1.现有的基于图结构的VQA方法是定制的 不能从抽象图像扩展到真实图像
2.没有考虑将问题信息添加进来
3.没有直观的展示得到结果的过程(Interpretable)
2.贡献
1.提出一个新的、Interpretable、基于图卷积网络的VQA方法
图中的节点表示Image features中的Bounding box ,节点之间的线条表示image中各个节点的联系强度(联系越强,线条越粗)。
线条的学习中,引入了先验知识----问题信息
2.模型的可解释性
通过Image上的bounding box 和 edges 之间的关联,来展示模型的可解释性
3.实验结果
66.18% on VQAv2数据集
3.网络结构
1.We develop a deep neural network that combines spatial, image and textual features in a novel manner in order to answer a question about an image.
2.Our graph learning module then learns an adjacency matrix of the image objects that is conditioned on a given question
3.the spatial gra