【阅读笔记】Dynamic Memory Networks for Visual and Textual Question Answering

Motivation:使用动态记忆网络DMN进行问答任务。DMN (Ask Me Anything: Dynamic Memory Networks for Natural Language Processing)。

一.方法:

  1. 文本特征提取

     使用DMN+,包含句子阅读器进行单词编码,和输入融合层(允许句子间的交互)。其中句子阅读器使用的是位置编码,融合层使用的是双向GRU。从而得到文本事实。

    2.图像特征的提取

 (1)图像放缩到448*448,使用VGG-19得到512*14*14的特征图,相当于195个维度为512的局部区域向量

 (2)局部区域向量使用线性层和tanh激活进行嵌入

 (3)使用双向GRU得到事实fact向量

    3.片段记忆模块

(1)记忆初始值为问题向量

(2)文本和图像事实经基于GRU的attention机制(AttGRU),对变换后的初始记忆进行加权得到新的记忆

(3)原始的GRU与问题和上层记忆无关,因此改进了一下,将GRU的门改为attention控制

(4)记忆更新使用Relu

 

 

 二. 实验结果

  1. 数据集:bAbI-10k,DAQUAR-ALL visual dataset,Visual Question Answering
  2. 结果

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值