VQA文献阅读 Learning Conditioned Graph Structures for Interpretable Visual Question Answering

该文提出了一种新的基于图卷积网络的视觉问答(VQA)方法,强调了解释性。通过结合空间、图像和文本特征,模型能够根据问题信息学习图像中对象的邻接矩阵。实验在VQAv2数据集上达到66.18%的准确率,展示了模型的可解释性和性能。
摘要由CSDN通过智能技术生成

1.动机

作者认为:
1.现有的基于图结构的VQA方法是定制的 不能从抽象图像扩展到真实图像
2.没有考虑将问题信息添加进来
3.没有直观的展示得到结果的过程(Interpretable)

2.贡献

1.提出一个新的、Interpretable、基于图卷积网络的VQA方法
图中的节点表示Image features中的Bounding box ,节点之间的线条表示image中各个节点的联系强度(联系越强,线条越粗)。
线条的学习中,引入了先验知识----问题信息
2.模型的可解释性
通过Image上的bounding box 和 edges 之间的关联,来展示模型的可解释性
3.实验结果
66.18% on VQAv2数据集

3.网络结构

在这里插入图片描述

1.We develop a deep neural network that combines spatial, image and textual features in a novel manner in order to answer a question about an image.
2.Our graph learning module then learns an adjacency matrix of the image objects that is conditioned on a given question
3.the spatial gra

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值