文中提到当前一些处理VQA任务的方法都是基于处理Image Captioning任务的方法,具体就是采用卷积递归神经网络,但是这种方法不能很好的模拟spatial inference。文中提出Spatial Memory Network用于处理VQA任务。Spatial Memory Network存储图像不同区域的神经激活单元到网络的记忆中,并且根据问题选择与其相关的图像区域。
本文主要贡献:
1.提出结合注意机制的Multi-hop Memory Network
2.在第一个hop设计了一个注意结构,利用每个单词向量捕获fine-grain分布
3.建立一系列明确需要spatial inference 的问题分析网络工作原理
4.与其它模型进行比较
模型框架图:
Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering
最新推荐文章于 2022-04-09 02:15:16 发布