Motivation:使用动态记忆网络DMN进行问答任务。DMN (Ask Me Anything: Dynamic Memory Networks for Natural Language Processing)。
一.方法:
- 文本特征提取
使用DMN+,包含句子阅读器进行单词编码,和输入融合层(允许句子间的交互)。其中句子阅读器使用的是位置编码,融合层使用的是双向GRU。从而得到文本事实。
2.图像特征的提取
(1)图像放缩到448*448,使用VGG-19得到512*14*14的特征图,相当于195个维度为512的局部区域向量
(2)局部区域向量使用线性层和tanh激活进行嵌入
(3)使用双向GRU得到事实fact向量
3.片段记忆模块
(1)记忆初始值为问题向量
(2)文本和图像事实经基于GRU的attention机制(AttGRU),对变换后的初始记忆进行加权得到新的记忆
(3)原始的GRU与问题和上层记忆无关,因此改进了一下,将GRU的门改为attention控制
(4)记忆更新使用Relu
二. 实验结果
- 数据集:bAbI-10k,DAQUAR-ALL visual dataset,Visual Question Answering
- 结果